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这 是 一 个 激动 人 的 醒 刻 |， 成 千 上 万 的 企业 在 使 用 Kafka， 三 分 之 一 多 的 世界 
500 强 公 司 也 在 其 中 。Kafka 是 成 长 最 快 的 开源 项 目 之 一， 巴 的 生态 入 系统 也 在 着 
过 发 展 。Kafka 正在 成 为 管理 利 处 理 流 式 数据 的 利器 


Kafka 从 何 而 来 ? 我 们 为 什么 要 开发 Kafka ? Kafka 到 底 是 什么 ? 


Kafka 最 初 是 LinkedIn 的 一 个 内 部 基础 设施 系统 。 我 们 发 现 ， 虽 然 有 很 多 数据 库 
和 系统 可 以 用 来 存储 数据 ， 但 在 我 们 的 架构 里 ， 刚 好 缺 一 个 可 以 帮助 处 理 持续 数 
据 流 的 组 件 。 在 开发 Kafka 之 前 ， 我 们 实验 了 各 种 现成 的 解决 方案 ， 从 消息 系统 
到 日 志 育 合 系 统 ， 再 到 ETL 工具 ， 它 们 都 无 法 满足 我 们 的 需求 。 


最 后 ， 我 们 决定 从 头 开 发 一 个 系统 。 我 们 不 想 只 是 开发 一 个 能 够 存储 数据 的 系 
统 ， 比 如 传统 的 关系 型 数据 库 、 键 值 存储 引擎、 搜索 引擎 或 缓存 系统 ， 我 们 硕 望 
能 够 把 数据 看 成 是 持续 变化 和 不 断 增 长 的 流 ， 并 基于 这 样 的 想法 构建 出 一 个 数据 
系统 ; 事实 上 ， 是 一 个 数据 架构 。 


这 个 想法 实现 后 比 我 们 最 初 预 想 的 适用 性 更 广 。Kafka 一 开始 被 用 在 社交 网 络 的 
ee '!， 而 现在 已 经 成 为 下 一 代数 据 架 构 的 基础 。 大 型 零售 商 下 
在 基于 持续 数据 流 改 造 他 们 的 基础 业务 流程 ， 汽 车 公司 正在 从 互联 网 汽车 那里 收 
集 和 处 理 实时 数据 流 ， 银行 也 在 重新 思考 基于 Kafka 改造 他 们 的 基础 流程 和 系 
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那么 Kafka 在 这 当中 充当 了 怎样 的 角色 ? 它 与 现 有 的 系统 有 什么 区 别 ? 


我 们 认为 Kafka 是 一 个 流 平台 在 这 个 平台 上 可 以 发 布 和 订阅 数据 流 ， 并 把 它们 
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(如 Hadoop) 和 数据 集成 或 ETL 工具 。 这 里 的 每 一 项 比较 都 有 一 定 的 道理 ， 但 
也 有 失 偏 颇 。 


Kafka 有 点 像 消息 系统 ， 人 允许 发 布 和 订阅 消 屋 流 。 * 从 这 . 文 点 来 看 ， 它 类 似 于 
ActiveMQ 、 RabbitMQ a 或 IBM 的 MQSeries 等 产品 。 尽 管 看 上 去 有 些 相似 ， 但 
Kafka 与 这 些 传 统 的 消息 系统 仍然 存在 很 多 重要 的 不 同 点 ， 这 些 差 异 使 它 完全 不 
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其 次 ，Kafka 可 以 按照 你 的 要 求 存储 数据 ， 保 存 多 入 都 可 以 。 作 为 数据 连接 层 ， 


Kafka 提供 了 数据 传递 多 长 时 间 完 全 可 以 由 你 来 
决定 。 最 后 ， 沉 式 俱 理 特 数据 不 理 的 层次 提 刘 到 了 其 祝 高度 。 消 息 系 统 只 会 传递 消 
电 ， 而 Kafka 的 流 式 处 理 能 力 让 你 只 用 很 少 的 代码 就 EB 够 动态 地 处 理 派生 流 和 数 
据 集 。 Kafka 的 这 些 独到 之 处 足以 让 你 刮目相看 ， 它 不 只 是 “ 另 一 个 消息 队列 ”。 


从 另 一 个 角度 来 看 Kafka， 我 们 会 把 它 看 成 实时 版 的 Hadoop 、 
和 构建 Kafka 的 原始 动机 之 一 。Hadoop 可 以 存储 和 定期 处 理 大 量 的 数据 文件 ， 

Kafka 可 以 存储 和 持 们 处 理 玉 型 的 数据 流 。 从 沪 术 角度 来 看 ， 它们 有 着 惊人 的 相 
似 之 处 ， 很 多 人 将 新 兴 的 流 式 处 理 看 成 批 处 理 的 超 集 。 它 们 之 间 的 最 大 不 同体 现 
在 持续 的 低 延 迟 处 理 和 批 处 理 之 间 的 差异 上 。Hadoop 和 大 数据 主要 应 用 在 数据 分 
析 上 ， 而 Kafka 因 其 低 延 迟 的 特点 更 适合 用 在 核心 的 业务 应 用 上 。 业 务 事件 时 刻 
在 发 生 ， Kafka 能 够 及 时 对 这 些 事件 作出 响应， 基于 Kafka 构建 的 服务 直接 为 业 
务 运营 提供 支撑 ， 提 升 用 户 体验 。 


Kafka 与 ETL 工具 或 其 他 数据 集成 工具 之 间 也 可 以 进行 一 番 比 较 。Kafka 和 这 些 
工具 都 擅长 移动 数据 ， 但 我 想 它 们 最 大 的 不 同 在 于 Kafka 颠覆 了 传统 的 思维 。 

Kafka 并 非 只 是 把 数据 从 一 个 系统 拆 解 出 来 再 塞 进 另 一 个 系统 ， 它 其 实 是 一 个 面 
向 实时 数据 流 的 平台 。 也 就 是 说 ， 它 不 仅 可 以 将 现 有 的 应 用 程序 和 数据 系统 连接 
起 来 ， 它 还 能 用 于 加 强 这 些 触发 相同 数据 流 的 应 用 。 我 们 认为 这 种 以 数据 流 为 中 
心 的 架构 是 非常 重要 的 。 在 某 种 程度 上 说 ， 这 些 数据 流 是 现代 数字 科技 公司 的 核 
心 ， 与 他 们 的 现金 流 一 样 重要 。 


将 上 述 的 三 个 领域 聚合 在 一 起 ， 将 所 有 的 数据 流 整合 到 一 起 ， 流 平台 因此 变 得 极 
具 吸 引力 。 


当然 ， 除 了 这 些 不 同 点 之 外 ， 对 于 那些 习惯 了 开发 请 求 与 啊 应 风格 应 用 和 关系 型 
数据 库 的 人 来 说 ， 要 学 会 基于 持续 数据 流 构建 应 用 程序 也 着 实 是 一 个 巨大 的 思维 
转变 。 借 助 这 本 书 来 学 习 Kafka 再 好 不 过 了 ， 从 内 部 架构 到 API， 都 是 由 对 
Kafka 最 了 解 的 人 亲手 呈现 的 。 我 希望 你 们 能 够 像 我 一 样 喜欢 这 本 书 ! 


Jay Kreps，Confluent 联合 创始 人 兼 CEO 


el 


前 言 


给 予 一 个 技术 书籍 作者 最 好 的 赞赏 莫 过 于 这 人 句 话 一 一 “如 果 在 一 开始 接触 这 门 技 

术 时 能 看 到 这 本 书 就 好 了 ”。 在 开始 写 这 本 书 的 时 候 ， 我 们 就 是 以 这 句 话 作为 写 

作 目 标 。 我 们 开发 Kafka， 0 帮助 很 多 公司 构建 基 Kafka 
的 系统 ， 帮 助 他 们 管理 数据 管道 ， 积 累 了 很 多 经 验 ， 但 也 困惑 : “应 该 把 哪些 东 

西 分 享 给 Kafka 新 用 户 ， ht ee 
的 写照 : 运行 Kafka 并 帮助 其 他 人 更 好 地 使 用 Kafka 。 


人 书 中 提供 的 这 些 内 容 能 够 帮助 Kafka 用 户 在 生产 环境 运行 Kafka 以 及 
基于 Kafka 构建 健壮 的 高 性 能 应 用 程序 。 我 们 列举 了 一 些 非 常 流行 的 应 用 场景 : 
用 于 事件 驱动 微服 务 系统 的 消息 总 线 、 流 式 应 用 和 大 规模 数据 管道 。 这 本 书 通 俗 
易 懂 ， 能 够 帮助 每 一 个 Kafka 用 户 在 任意 的 架 & 构 或 应 用 场景 里 使 用 好 Kafka。 书 
介绍 了 如 何 安装 和 配置 Kafka、 如 何 使 用 Kafka API、Kafka 的 设计 原则 和 可 靠 
性 保证 ， 以 及 Kafka 的 一 些 架构 细节 ， 如 复制 协议 、 欣 制 右 和 存储 层 。 我 们 相 
信 ，Kafka 的 设计 原理 和 内 部 架 8 构 不 仅 会 成 为 分 布 式 系统 构建 者 的 兴 4 趣 所 在 ， 对 
于 那些 在 生产 环境 部 署 Kafka 或 使 用 Kafka 构建 应 用 程序 的 人 来 说 也 是 非常 有 用 
的 。 越 是 了 解 Kafka， 就 越 是 能 够 更 好 地 作出 权衡 。 


在 软件 工程 里 ， 条 条 道路 通 罗马 ， 每 一 个 问题 都 有 多 种 解决 方案 。Kafka 为 专家 
级 别 的 用 户 提供 了 巨大 的 灵活 性 ， 而 新 手 则 需要 克服 陡峭 的 学 习 曲 线 才 能 成 为 专 
家 。Kafka 通常 会 告诉 你 如 何 使 用 某 个 功能 特性 ， 但 不 会 告诉 你 为 什么 要 用 它 或 
者 为 什么 不 该 用 它 。 我 们 会 尽 可 外 地 解释 我 们 的 设计 决 表 和 权 俐 到 9 后 的 缘由 ， 以 
及 用 户 在 哪些 情况 下 应 该 或 不 应 该 使 用 Kafka 提供 的 特性 


读者 对 象 


这 本 书 是 为 使 用 Kafka API 开发 应 用 程序 的 工程 师 和 在 生产 环境 安庆 、 配置 、 调 
优 、 监 控 Kafka 的 运 维 工程 师 (也 可 以 叫 作 SRE、 运 维 人 员 或 系统 管理 员 ) 而 写 
的 。 我 们 也 考虑 到 ] 数据 染 构 师 和 数据 工程 师 ， 他 们 负责 设计 和 构建 整个 组 织 的 
数据 基础 架构 。 某 些 章节 〈 特 别 是 第 3 章 、 第 4 章 和 第 11 章 ) 主要 面向 Java 开 
发 人 员 ， 并 假设 读者 已 经 熟悉 基本 的 Java 语言 编程 ， 比 如 异常 处 理 和 并 发 编程 。 
其 他 章节 (特别 是 第 2 章 、 第 8 章 、 第 9 章 和 第 10 章 ) 则 假设 读者 在 Linux 的 运 
行 、 存 储 和 网 络 配置 方面 有 一 定 的 经 验 。 本 书 的 其 余部 分 则 讨论 了 一 般 性 的 软件 
架构 ， 不 要 求 读 者 具备 特定 的 知识 。 

一 类 可 能 对 本 书 感 兴趣 的 人 是 那些 经 理 或 架构 师 ， 他 们 不 直接 使 用 Kafka， 但 
会 与 使 用 Kafka 的 工程 师 打 交道 。 他 们 有 必要 了 解 Kafka 所 能 提供 的 保证 机 制 ， 
以 及 他 们 的 同事 在 构建 基 Kafka 的 系统 时 所 作出 的 权衡 。 这 本 书 可 以 成 为 企业 


管理 人 员 的 利器 ， 确 保 他 们 的 工程 师 在 Kafka 方面 训练 有 素 ， 让 他 们 的 团队 了 解 
他 们 本 该 知道 的 知识 。 


排版 约定 
本 书 使 用 了 下 列 排版 约定 。 
。 黑体 
表示 新 术语 或 重点 强调 的 内 容 。 


。 等 宽 字体 (constant width ) 


Du 


表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 
变量 、 语 句 和 关键 字 等 。 


。 加 粗 等 宽 字 体 (constant width bold ) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 
。 等 帘 斜 体 (constant width italic) 


表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 蔡 换 的 文本 。 


和 该 图 标 表 示 提 示 或 建议 。 


和 该 图 标 表 示 一 般 注 记 。 


众 、 该 图 标 表示 警告 或 警示 。 


使 用 代码 示例 


本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 
在 你 的 程序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 人 否则 无 需 联系 我 们 获得 许 
可 。 比 如 ， 用 本 书 的 几 个 代码 片段 写 一 个 程序 就 无 需 获得 许可 ， 销 售 或 分 发 

O'Reilly 图 书 的 示例 光盘 则 需要 获得 许可 ; 引用 本 书 中 的 示例 代码 回答 问题 无 需 
获得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产品 文档 中 则 需要 获得 许可 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包 
括 书 名 、 作 者 、 出 版 社 和 ISBN。 例 如 “Kafka 权威 指南 ， 作 者 Neha Narkhede、 
Gwen Shapira 和 Todd Palino (O'Reilly) ， 版 权 归 Neha Narkhede、Gwen Shapira 
和 Todd Palino 所 有 ，978-1-4919-3616-0”。 


如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许 可 的 范围 ， 欢 迎 你 通过 
permissions@ oreilly.com 与 我 们 联系 。 


O'Reilly Safari 


里 Safari 


Safari (原来 叫 Safari Books Online) 是 面向 企业 、 政 府 、 教 育 从 业者 和 个 人 的 会 
员 制 培训 和 参考 咨询 平台 。 


我 们 向 会 员 开 放 成 和 十 上 万 本 图 书 以 及 培训 视频 、 学 习 路 线 、 交 互 式 教 程 和 专业 视 
频 。 这 些 资 源 来 自 250 多 家 出 版 机 构 ， 其 中 包括 O'Reilly Media、Harvard 
Business Review 、 Prentice Hall Professional 、 Addison-Wesley Professional 、 
Microsoft Press ~、 Sams ~ Que 、 Peachpit Press 、 Adobe 、 Focal Press 、 Cisco Press、 
John Wiley & Sons 、 Syngress ~ Morgan Kaufmann ~ IBM Redbooks 、 Packt 、 Adobe 
Press ~ FT Press ~ Apress ~ Manning ~ New Riders ~、 McGraw-Hill 、 Jones & Bartlett 
和 Course Technology ° 


更 多 信息 ， 请 访问 http://oreilly.com/safari 。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 


O'Reilly Media, Inc. 


1005 Gravenstein Highway North 


Sebastopol, CA 95472 


1 国 | : 
北京 市 西城 区 西直门 南大 街 2 号 成 馈 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公 


O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘 
误 表 、 示 例 代码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 http://oreil.ly/2tVmYjk 。 


对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮 件 到 : bookquestions@oreilly.com 
要 了 解 更 多 O'Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 


芭 | 


http:/www.oreilly.com 


我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 


请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : http://www.youtube.com/oreillymedia 
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Michael Noll、Paolo Castagna。 我 们 还 想 感 谢 众 多 在 网 站 上 留 下 评论 和 反馈 的 读 
者 。 


很 多 审 稿 人 提供 了 有 价值 的 意见 ， 极 大 改进 了 本 书 的 质量 。 书 中 的 遗留 错误 理应 
由 我 们 作者 负责。 


我 们 要 感谢 O'Reilly 编辑 Shannon Cutt 的 鼓励 、 耐心 和 深 襄 远虑 。 对 于 一 个 作者 
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电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 


中 全 


第 1 章 初 识 Kafka 


数据 为 企业 的 发 展 提供 动力 。 我 们 从 数据 
每 个 应 用 程序 都 会 产生 数据 ， 
息 等 。 数 据 的 点 点 滴 滴 都 在 暗 
] 把 数据 从 源头 移动 到 可 以 对 它们 进行 分 析 处 理 的 地 方 ， 然后 


户 活动 记录 、 


后 生成 更 多 的 数据 。 
啊 应 消 筷 
步行 动 的 方向 。 我 人 
把 得 到 的 结果 应 用 到 实际 场景 中 ， 
么 。 例 如 ， 我 们 每 天 在 Amazon 网 站 上 浏览 感 兴 


获取 信息 


对 它们 进行 


Tk 


品 推荐 ， 并 在 稍 后 展示 给 我 们 。 


个 过 程 完 成 得 走 
让 Eb 专注 于 核心 业务 


成 为 天 键 性 组 件 。 如 何 移 动 数据 ， 


一 次 科学 家 们 发 生 分 疏 ， 都 是 
就 基 记 邑 一 类 数据 达成 
要 么 你 是 对 的 ， 


我 是 对 的 ， 


越 快 ， 


分 析 处 理 ， 然 
包括 日 志 消息 、 度量 指标 、 用 
生 瞳 示 一 些 重要 的 事情 ,上 


如 下 一 


这 样 才能 够 确切 地 知道 这 些 数据 要 告诉 我 们 什 
， 浏 览 信息 被 转化 成 商 


组 织 的 反 信 


。 这 就 是 为 什么 在 一 个 以 数据 为 驱动 的 企业 里 ， 


趣 的 商品 


放 就 越 人 敏捷 。 人 花费 越 少 的 精力 在 数据 移动 上 ， 


几乎 变 得 与 数据 本 身 


因为 掌握 的 数据 不 够 充分 


样 重要 。 


1.1 ”发布 与 订阅 消息 系统 


在 正式 讨论 Apache Kafka (以 下 简称 Kafka) 之 前 ， 
个 系统 的 重要 性 
接 把 消息 发 送 给 接收 者 ， 这 是 发 布 与 订阅 消 
式 对 消息 进行 分 类 ， 人 


统 的 概念 ， 


布 与 订阅 系 


并 认 
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识 这 


般 会 


有 一 个 broker 


致 。 只 要 获取 了 数据 ， 
要 么 我 们 都 是 错 的 。 


当 自 


。 数 据 


(消息 


下 


先 习 
\) 的 发 送 者 (发 布 者 ) 不 会 直 
息 系统 的 一 个 特点 。 发 布 者 以 某 种 方 
以 便 接 收 特定 类 型 的 消息 。 发 


然后 我 们 继续 研究 。 


Neil deGrasse Tyson 


就 
数据 管道 会 


。 所 以 我 们 可 以 先 


有 人 


KE 了 人 解 发 布 与 订阅 消息 系 


也 就 是 


消息 


的 


人心 点 O 


1.1.1 如 何 开始 


发 布 与 订阅 消息 系统 的 大 部 分 应 用 场景 都 是 从 一 个 简单 的 消息 队列 或 一 个 进程 间 
通道 开始 的 。 例 如 ， 你 的 应 用 程序 需要 往 别 处 发 送 监控 信息 ， 可 以 直接 在 你 的 应 
用 程序 和 另 一 个 可 以 在 仪表 盘 上 显示 度量 指标 的 应 用 程序 之 间 建 立 连 接 ， 然 后 通 
过 这 个 连接 推送 度量 指标 ， 如 图 1-1 所 示 。 


应 用 程序 应 用 程序 
度量 指标 度量 指标 


图 1-1: 单个 直 连 的 度量 指标 发 布 者 


这 是 刚 接触 监控 系统 时 简单 问题 的 应 对 方案 。 过 了 不 久 ， 你 需要 分 析 更 长 时 间 厂 
段 的 度量 指标 ， 而 此 时 的 仪表 盘 程 序 满足 不 了 和 需求， 于 是 ， 你 局 动 了 一 个 新 的 服 
务 来 接收 度量 指标 。 该 服务 把 度量 指标 保存 起 来 ， 然 后 进行 分 析 。 与 此 同时 ， 你 
修改 了 原来 的 应 用 程序 ， 把 度量 指标 同时 发 送 到 两 个 仪表 盘 系 统 上 。 现 在 ， 你 又 
多 了 3 个 可 以 生成 度量 指标 的 应 用 程序 ， 它 们 都 与 这 两 个 服务 直接 相连 。 而 你 的 
同事 认为 最 好 可 以 对 这 些 服务 进行 轮 询 以 便 获 得 告警 功能 ， 于 是 你 为 每 一 个 应 用 
程序 增加 了 一 个 服务 器 ， 用 于 提供 度量 指标 。 再 过 一 阵子 ， 有 更 多 的 应 用 程序 出 
于 各 自 的 目的 ， 都 从 这 些 服务 器 获取 度量 指标 。 这 时 的 架构 看 起 来 号 像 图 1-2 所 
示 的 那样 ， 市 点 间 的 连接 一 团 糟 。 


图 1-2: 多 个 直 连 的 度量 指标 发 布 者 


这 时 ， 技 术 债务 开始 凸显 出 来 ， 于 是 你 决定 偿还 掉 一 些 。 你 创建 了 一 个 独立 的 应 
用 程序 ， 用 于 接收 来 自 其 他 应 用 程序 的 度量 指标 ， 并 为 其 他 系统 提供 了 一 个 查询 
服务 器 。 这 样 ， 之 前 架构 的 复杂 度 被 降低 到 图 1-3 所 示 的 那样 。 那 么 恭喜 你 ， 你 
已 经 创建 了 一 个 基于 发 布 与 订阅 的 消息 系统 。 


图 1-3: 度量 指标 发 布 与 订阅 系统 
1.1.2 ”独立 的 队列 系统 


在 你 跟 度量 指标 打 得 不 可 开交 的 时 候 ， 你 的 一 个 同事 也 正在 跟 日 志 消 息 奋 战 。 还 
有 男 一 个 同事 正在 跟踪 网 站 用 户 的 行为 ， 为 负责 机 器 学 习 开 发 的 同事 提供 信息 ， 
同时 为 管理 团队 生成 报告 。 你 和 同事 们 使 用 相同 的 方式 创建 这 些 系 统 ， 解 确信 息 
的 发 布 者 和 订阅 者 。 图 1-4 所 示 的 架构 包含 了 3 个 独立 的 发 布 与 订阅 系统 。 
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图 1-4: 多 个 发 布 与 订阅 系统 


这 种 方式 比 直接 使 用 点 对 点 的 连接 (图 1-2) 要 好 得 多 ， 但 这 里 有 太 多 重复 的 地 
方 。 你 的 公司 因此 要 为 数据 队列 维护 多 个 系统 ， 每 个 系统 又 有 各 自 的 缺陷 和 不 

足 。 而 且 ，, 接 下 来 可 能 会 有 更 多 的 场景 需要 用 到 消息 系统 。 此 时 ， 你 真正 需要 的 
是 一 个 单一 的 集中 式 系统 ， 它 可 以 用 来 发 布 通用 类 型 的 数据 ， 其 规模 可 以 随 着 公 
司 业务 的 增长 而 增长 。 


1.2 ”Kafka 登 场 


Kafka 束 是 为 了 解决 上 述 问题 而 设计 的 款 基 于 发 布 与 订阅 的 消息 系统 。 它 一 般 
被 称 为 “分 布 式 提交 日 志 ” 或 者 “分 ) 布 式 流 平台 ” ° 文件 系统 或 数据 库 提交 日 志 用 来 
提供 所 有 事务 的 持 义 记录， 通过 重 放 这 些 日 志 可 以 重建 系统 的 状态 。 同样 地 ， 
Kafka 的 数据 是 按照 一 定 顺 序 持久 化 保存 的 ， 可 以 按 需 读 取 。 此 外 ，Kafka 的 数据 
分 布 在 整个 系统 里 ， 具 备 数据 故障 保护 和 性 能 伸缩 能 力 。 


1.2.1 消息 和 批 次 


Kafka 的 数据 单元 被 称 为 消息 。 如 果 你 在 使 用 Kafka 之 前 已 经 有 数据 库 使 用 经 
验 ， 那 么 可 以 把 消息 看 成 是 数据 库 里 的 一 个 “数据 行 ” 或 一 条 “记录 ”。 消 息 由 字 节 
数组 组 成 ， 所 以 对 于 Kafka 来 说 ， 消 息 里 的 数据 没有 特别 的 格式 或 含义 。 消 息 可 
以 有 一 个 可 选 的 元 数据 ， 也 就 是 键 。 键 也 是 一 个 字 节 数组 ， 与 消息 一 样 ， 对 本 
Kafka 来 说 也 没有 特殊 的 含义 。 当 消息 以 一 种 可 控 的 方式 写 入 不 同 的 分 区 时 ， 
用 到 键 。 最 简单 的 例子 就 是 为 键 生 成 一 个 一 致 性 散 列 值 ， 然后 使 用 散 列 什 对 主题 
分 区 数 进行 取 模 ， 为 消息 选取 分 区 。 这 样 可 以 保证 具有 相同 键 的 消息 总 是 被 写 到 
相同 的 分 区 上 。 第 3 章 将 详细 介绍 键 的 用 法 。 


为 了 提高 效率 ， 消 息 被 分 批 次 写 入 Kafka 。 2 这 些 消息 属于 同 
一 个 主题 和 分 区 。 如 果 每 一 个 消息 都 单独 穿行 于 网 络 ， 会 导致 大 量 的 网 络 开销 ， 


把 消息 分 成 批 次 传输 可 以 减少 网 络 开销 。 不 过 ， 这 要 在 时 间 延 迟 和 吞吐 量 之 间作 

出 权衡 : 批 次 越 大 ， 单 位 时 间 内 处 理 的 消息 就 越 多 ， 单 个 消息 的 传输 时 间 惑 越 

人 压缩 ， 这 样 可 以 提升 数据 的 传输 和 存储 能 力 ， 但 要 做 更 多 的 计 
导 


1.2.2 ”模式 


对 于 Kafka 来 说 ， 消 息 不 过 是 星 沉 难 懂 的 字 厄 数组 ， 所 以 有 人 建议 用 一 些 额 外 的 
结构 来 定义 消息 内 容 ， 让 它们 更 易于 理解 。 根 据 应 用 程序 的 需求 ; 消息 模式 

(schema) 有 许多 可 用 的 选项 。 像 JSON 和 XML 这 些 简 单 的 系统 ， 不 仅 易 用 ， 

而 且 可 读 性 好 。 不 过 ， 它 们 缺乏 强 类 型 处 理 能 力 ， 不 同 版 本 之 间 的 兼容 性 也 不 是 
很 好 。Kafka 的 许多 开发 者 喜欢 使 用 Apache Avro， 它 最 初 是 为 Hadoop 开发 的 一 
款 序列 化 框架 。Avro 提供 了 一 种 紧 洪 的 序列 化 格式 ， 模 式 和 消息 体 是 分 开 的 ， 当 
模式 发 生变 化 时 ， 不 需要 重新 生成 代码 ， 它 还 支持 强 类 型 和 模式 进化 ， 其 版 本 既 
向 前 兼容 ， 也 向 后 兼容 。 


数据 格式 的 一 致 性 对 于 Kafka 来 说 很 重要 ， 它 消除 了 消息 写 操作 之 间 的 得 合 
性 。 如 果 读 写 操作 紧密 地 耦合 在 一 起 ， 消息 条 脱 才 需要 并 级 成 用 得 序 才 阴 司 时 处 
理 新 旧 两 种 数据 格式 。 在 消息 订阅 者 升级 了 之 后 ， 消 息 发 布 者 才 外 跟着 升级 ， 以 
便 使 用 新 的 数据 格式 。 痢 的 应 用 程序 如 果 需 要 使 用 数据 ， 惑 要 与 消息 发 布 者 发 生 
大 合 ， 导 致 开发 者 需要 做 很 多 繁杂 的 工作 。 定 义 民 好 的 模式 ， 并 把 它们 存放 在 公 
0 可 以 方便 我 们 理解 Kafka 的 消息 结构 。 第 3 章 将 详细 讨论 模式 和 序列 


1.2.3 ”主题 和 分 区 


Kafka 的 消息 通过 主题 进行 分 类 。 主 题 就 好 比 数据 库 的 表 ， 或 者 文件 系统 里 的 文 
件 夹 。 a 消息 以 追加 的 
方式 写 入 分 区 ， 然 后 以 先入 移出 的 顺序 读 取 。 要 注意 ， 个 主题 一 般 包 含 几 
个 分 区 ， 因 此 无 法 在 整个 主题 范围 内 保证 消息 的 顺序 但 可 以 保证 消息 在 单个 分 
区 内 的 顺序 。 图 1-5 所 示 的 主题 有 4 个 分 ?区 ， 消息 被 妃 加 写 入 每 个 分 区 的 尾音 ° 
Kafka 通过 分 区 来 实现 数据 见 余 和 伸缩 性 。 分 区 可 以 分 布 在 不 同 的 服务 器 上 ， 世 
就 是 说 ， 一 个 主题 可 以 横 跨 多 个 服务 器 ， 以 此 来 提供 比 单个 服务 器 更 强大 的 性 
能 。 


主题 “topiceName” 


图 1-5: 包含 多 个 分 区 的 主题 表示 


我 们 通常 会 使 用 流 这 个 词 来 描述 Kafka 这 类 系统 的 数据 。 很 多 时 候 ， 人 们 把 一 个 
主题 的 数据 看 成 一 个 流 ， 不 管 它 有 多 少 个 分 区 。 流 是 一 组 从 生产 者 移动 到 消费 者 


的 数据 。 当 我 们 讨论 流 式 处 理 时 ， 一 般 都 是 这 样 描述 消息 的 。Kafka Streams、 
Apache Samza 和 Storm 这 些 框 架 以 实时 的 方式 处 理 消 息 ， 也 就 是 所 谓 的 流 式 处 
理 。 我 们 可 以 将 流 式 处 理 与 离线 处 理 进行 比较 ， 比 如 Hadoop 就 是 被 设计 用 于 在 
稍 后 某 个 时 刻 处 理 大 量 的 数据 。 第 11 章 将 会 介绍 流 式 处 理 。 


1.2.4 生产 者 和 消费 者 


Kafka 的 客户 端 的 它们 被 分 为 两 种 基本 类 型 : 生产 者 和 消 


费 者 。 除 此 之 外 ， 其 他 高 级 客户 端 API 


用 于 数据 集成 的 Kafka Connect 


API 1 Kafka Su ns 。 这些 高 级 客户 端 API 使 用 生产 者 和 消费 者 


作为 内 部 组 件 ， 提 供 了 高 级 的 功能 
生产 者 创建 消息 。 在 其 他 发 布 与 订阅 系统 中 


者 。 一 般 情况 下 ， 一 个 消息 会 被 发 布 到 一 个 特定 的 主题 上 。 生 产 者 在 默认 情况 下 


把 消息 均衡 地 分 布 到 主题 的 所 有 分 区 上 ， 


生产 者 可 能 被 称 为 发 布 者 或 写 入 


而 并 不 关心 特定 消息 会 被 写 到 哪个 分 


区 。 不 过 ， 在 某 些 情况 下 ， 生产 痢 会 把 消息 直接 与 到 指定 的 分 ) 区。 这 通常 是 通过 


消息 键 和 分 区 峰 来 实现 的 ， 分 区 器 为 键 生成 一 个 散 列 值 ， 并 将 其 映射 到 指定 的 分 


区 上。 这 样 可 以 保证 包含 辣 一 个 刍 的 消息 会 被 写 到 同一 个 分 区 上 。 生 产 者 也 可 以 


使 用 目 定 义 的 分 区 器 ， 根 据 不 同 的 业务 规则 将 消息 映射 到 分 区 。 人 第 3 章 将 详细 介 


绍 生产 者 。 
消费 者 读 取 消息 。 在 其 他 发 布 与 订阅 系统 中 


消费 者 可 能 被 称 为 订阅 者 或 读者 


mt 并 按照 消息 生成 的 顺序 读 取 它们 。 消 费 者 通过 检 


查 消 息 的 偏 移 量 来 区 分 已 经 读 取 过 的 消息 。 
断 弟 增 的 整数 值 ， 在 创建 消息 息 时 ，Kafka 会 


偏 移 量 是 另 一 种 元 数据 ， 它 是 一 个 不 
会 把 它 添加 到 消息 里 。 在 给 定 的 分 区 


里 ， 每 个 消息 的 偏 移 量 都 是 唯一 的 。 消 费 者 把 每 个 分 区 最 后 读 取 的 消息 偏 移 量 保 


存在 Zookeeper 或 Kafka 上 如 果 消 费 者 关闭 或 重启 ， 它 的 读 取 状 态 不 会 丢失 。 


消费 者 是 消费 者 群 组 的 一 部 分 ， 也 就 是 说 ， 会 有 一 个 或 多 个 消费 者 共同 读 取 一 个 
主题 。 群 组 保证 每 个 分 区 只 能 被 一 个 消费 者 使 用 。 图 1-6 所 示 的 群 组 中 ， 有 3 个 
消费 者 同时 读 取 一 个 主题 。 其 中 的 两 个 消费 者 各 目 读 取 一 个 分 区 ， 另 外 一 个 消费 
者 读 取 其 他 两 个 分 区 。 消 费 者 与 分 区 之 间 的 映射 通常 被 称 为 消费 者 对 分 区 的 所 有 
权 关系 。 

通过 这 种 方式 ， 消 费 者 可 以 消费 包含 大 量 消息 的 主题 。 而 且 ， 如 有 果 一 个 消费 者 失 
效 ， 群 组 里 的 其 他 消费 者 可 以 接管 失效 消费 者 的 工作 。 第 4 章 将 详细 介绍 消费 者 
和 消费 者 群 组 
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图 1-6: 消费 者 群 组 从 主题 读 取 消息 


1.2.5 ”broker 和 集群 


一 个 独立 的 Kafka 服务 器 被 称 为 broker 。broker 接收 来 自生 产 者 的 消息 ， 为 消息 
设置 偏 移 量 ， 并 提交 消息 到 磁盘 保存 。broker 为 消费 者 提供 服务 ， 对 读 取 分 区 的 
请 求 作 出 响应 ， 返 回 已 经 提交 到 磁 强 上 的 消息 。 根 据 特 定 的 硬件 及 其 性 能 特征 ， 
单个 broker 可 以 轻松 处 理 数 千 个 分 区 以 及 每 秒 百 万 级 的 消息 量 。 


broker 是 集群 的 组 成 部 分 。 每 个 集群 都 有 一 个 broker 同时 充当 了 集群 控制 器 的 
角色 〈 自 动 从 集群 的 活跃 成 员 中 选举 出 来 ) 。 控制 器 负责 管理 工作 ， 包括 将 分 区 


分 配给 broker 和 监控 broker。 在 集群 中 ， 一 个 分 区 从 属于 一 个 broker， 该 broker 


( 见 图 1-7) 。 这 种 复制 机 制 为 分 区 提供 了 消息 元 余 ， 如 果 有 一 个 broker 失效 ， 
其 他 broker 可 以 接管 领导 权 。 不 过 ， 相 关 的 消费 者 和 生产 者 都 要 重新 连接 到 新 的 
首领 。 第 6 章 将 详细 介绍 集群 的 操作 ， 包 括 分 区 复制 。 


We 
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图 1-7: 集群 里 的 分 区 复制 


保留 消息 (在 一 定期 限 内 ) 是 Kafka 的 一 个 重要 特性 。Kafka broker 默认 的 消息 
保留 策略 是 这 样 的 : 


要 么 保留 一 段 时 间 (比如 7 天 ) ， 要 么 保留 到 消息 达到 一 定 


大 小 的 字 市 数 (比如 1GB) 。 当 消息 数量 达到 这 些 上 限时 ， 旧 消息 就 会 过 期 并 被 
删除 ， 所 以 在 任何 时 刻 ， 可 用 消息 的 总 量 都 不 会 超过 配置 参数 所 指定 的 大 小 。 主 


题 可 以 配置 自己 的 保留 策略 ， 可 以 将 消息 保留 到 不 再 使 用 它们 为 止 。 例 如 ， 用 于 
跟踪 用 户 活动 的 数据 可 能 需要 保留 儿 天 ， 而 应 用 程序 的 度量 指标 可 能 只 需要 保留 


几 个 小 时 。 可 以 通过 配置 把 主题 当 作 紧 凑 型 日 志 ， 只 有 最 后 一 个 带 有 特定 键 的 消 
乱 会 被 保留 下 来 。 这 种 情况 对 于 变更 日 志 类 型 的 数据 来 说 比较 适用 ， 因 为 人 们 只 


关心 最 后 时 刻 发 生 的 那个 变更 。 


1.2.6 ”多 集群 


随 着 Kafka 部 署 数量 的 增加 ， 基 于 以 下 几 点 原因 ， 最 好 使 用 多 个 集群 。 


。 数据 类 型 分 离 


。 安全 需求 隔离 


。 多 数据 中 心 (灾难 恢复 ) 


如 果 使 用 多 个 数据 


' 心 ， 殊 需要 在 它们 之 间 复 制 消息 。 这 样 ， 在 线 应 用 程序 才 可 


以 访问 到 多 个 站 点 的 用 户 活 动 信息 。 例 如 ， 如 采 一 个 用 户 修改 了 他 们 的 资料 信 

上 县， 不 管 从 哪个 数据 中 心 都 应 该 能 看 到 这 些 改动 。 或 者 多 个 站 点 的 监控 数据 可 以 
被 聚集 到 一 个 部 署 了 分 析 程序 和 告警 系统 的 中 心 位 置 。 不 过 ，Kafka 的 消息 复制 
机 制 只 能 在 单个 集群 里 进行 ， 不 能 在 多 个 集群 之 间 进 行 。 


Kafka 提供 了 一 个 叫 作 MirrorMaker 的 工具 ， 可 以 用 它 来 实现 集群 间 的 消息 复 
制 。MirrorMaker 的 核心 组 件 包含 了 一 个 生产 者 和 一 个 消费 者 ， 两 者 之 间 通 过 一 
个 队列 相连 。 


消费 者 从 一 个 集群 读 取 消息 ， 生 产 者 把 消息 发 送 到 男 一 个 集群 上 。 图 1-8 展示 了 
一 个 使 用 MirrorMaker 的 例子 ， 两 个 “本 地 ”集群 的 消息 被 聚集 到 一 个 “聚合 ”集群 
上 ， 人 然后 将 该 集群 复制 到 其 他 数据 中 心 。 不 过 ， 这 种 方式 在 创建 复杂 的 数据 管道 
方面 显得 有 点 力不从心 。 第 7 章 将 详细 讨论 这 些 案例 。 
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图 1.8:， 多 数据 中 心 架构 
1.3 ”为 什么 选择 Kafka 


基于 发 布 与 订阅 的 消息 系统 那么 多 ， 为 什么 Kafka 会 是 一 个 更 好 的 选择 呢 ? 
1.3.1 多 个 生产 者 


Kafka 可 以 无 颖 地 支持 多 个 生产 者 ， 不 管 客户 端 在 使 用 单个 主题 还 是 多 个 主题 。 
所 以 它 很 适合 用 来 从 多 个 前 端 系统 收集 数据 ， 并 以 统一 的 格式 对 外 提供 数据 。 例 
如 ， 一 个 包含 了 多 个 微服 务 的 网 站 ， 可 以 为 页 面 视图 创建 一 个 单独 的 主题 ， 所 有 
服务 都 以 相同 的 消息 格式 向 该 主题 写 入 数据 。 消 费 者 应 用 程序 会 获得 统一 的 页 面 
视图 ， 而 无 需 协调 来 自 不 同 生 产 者 的 数据 流 。 


MY 


1.3.2 ”多 个 消费 者 


除了 支持 多 个 生产 者 外 ，Kafka 也 支持 多 个 消费 者 从 一 个 单独 的 消息 流 上 读 取 数 
据 ， 而 且 消 费 者 之 间 互 不 影响 。 这 与 其 他 队列 系统 不 同 ， 其 他 队列 系统 的 消息 一 
旦 被 一 个 客户 端 读 取 ， 其 他 客户 端 就 无 法 再 读 取 它 。 另 外 ， 多 个 消费 者 可 以 组 成 
一 个 群 组 ， 它 们 共 圣 个 消息 流 ， 并 保证 整个 群 组 对 每 个 给 定 的 消息 只 处 理 
ZR。 


1.3.3 ”基于 磁盘 的 数据 存储 


Kafka 个 仪 支持 多 个 消 卖 者 ， 还 允许 消费 者 非 实 时 地 读 取 消息 ， 这 要 归功 于 Kafka 
的 数据 保留 特性 。 消 息 被 提交 到 磁 副 ， 根 据 设 置 的 保留 规则 进行 保存 。 每 个 主题 
可 以 设置 单独 的 保留 规则 ， 以 便 满足 不 同 消费 者 的 需求 ， 各 个 主题 可 以 保留 不 同 
数量 的 消息 。 消 费 者 可 能 会 因为 处 理 速 度 慢 或 突 发 的 流量 高 峰 导 致 无 法 及 时 读 取 
消息 ， 而 持久 化 数据 可 以 保证 数据 不 会 丢失 。 消 费 者 可 以 在 进行 应 用 程序 维护 时 
离线 一 小 段 时 间 ， 而 无 需 担 心 消息 丢 类 或 屠 塞 在 生产 者 端 。 消费 演 可 以 被 关闭 | 

但 消息 会 继续 保留 在 Kafka 里 。 消 费 考 可 以 从 上 次 中 断 的 地 方 继续 处 理 消息 


1.3.4 ”伸缩 性 


为 了 能 够 轻松 处 理 大 量 数据 ，Kafka 从 一 开始 就 被 设计 成 一 个 具有 灵活 伸缩 性 的 
系统 。 用 户 在 开发 阶段 可 以 先 使 用 单个 broker， 再 扩展 到 包含 3 个 broker 的 小 型 
开发 集群 ， 然 后 随 着 数据 量 不 断 增 长 ， 部 署 到 生产 环境 的 集群 可 能 包含 上 百 个 
于， 对 在 线 集群 进行 扩 0 也 就 是 说 ， 一 个 包 

多 个 broker 的 集群 ， 即 使 个 别 broker 失效 ， 仍 然 可 以 持续 地 为 客户 提供 服务 。 
要 提 训 本 的 和 氏 能 力 ， 沉 要 配置 科 光复 宙 系 政 。 第 6 间 将 计 论 关于 复制 的 更 
细节 


1.3.5 ”高 性 能 


上 面 提 到 的 所 有 特性 ， 让 Kafka 成 为 了 一 个 高 性 能 的 发 布 与 订阅 消息 系统 。 通 过 
横向 扩展 生产 者 、 消 费 和 broker，Kefta 可 以 轻松 站 理 巨大 的 消息 洲 ， 在 从 
量 数据 的 同时 ， 它 还 能 保证 亚 秒 级 的 消息 延迟 。 


1.4 数据 生态 系统 


已 经 有 很 多 应 用 程序 加 入 到 了 数据 处 理 的 大 军 中 。 我 们 定义 了 输入 和 应 用 程序 ， 
负责 生成 数据 或 者 把 数据 引入 系统 。 我 们 定义 了 输出 ， 它 们 可 以 是 度量 指标 、 报 
告 或 者 其 他 类 型 的 数据 。 我 们 创建 了 一 些 循 环 ， 使 用 一 些 组 件 从 系统 读 取 数 据 ， 
然后 把 它们 导 到 数据 基础 设施 上 ， 以 备 不 时 之 需 。 数 据 
类 型 可 以 多 种 多 样 ， 每 一 种 数据 类 型 可 以 有 不 同 的 内 容 、 大 小 和 用 途 。 


汶 


Kafka 为 数据 生态 系统 市 来 了 循环 系统 ， 如 图 1-9 所 示 。 它 在 基础 设施 的 各 个 组 

件 之 间 传 递 消 息 ， 为 所 有 客户 端 提供 一 致 的 接口 。 当 与 提供 消息 模式 的 系统 集成 
时 ， 生 产 者 和 消费 者 之 间 不 再 有 紧密 的 耦合 ， 也 不 需要 在 它们 之 间 建 立 任 何 类 型 
的 直 连 。 我 们 可 以 根据 业务 需要 添加 或 移 除 组 件 ， 因 为 生产 者 不 再 关心 谁 在 使 用 
数据 ， 也 不 关心 有 多 少 个 消费 者 。 


应 用 程序 “0 
Apache of Samza, Spark, 
OpenTSDB Storm, Flink 


图 1-9: 大 数据 生态 系统 


使 用 场景 
01. 活动 跟踪 


Kafka 最 初 的 使 用 场景 是 跟踪 用 户 的 活动 。 网 站 用 户 与 前 端 应 用 程序 发 生 区 
互 ， 前 端 应 用 程序 生成 用 户 活动 相关 的 消息 。 这 些 消 息 可 以 是 一 些 静 态 的 信 
息 ， 比 如 页 面 访问 次 数 和 点 击 量 ， 也 可 以 是 一 些 复杂 的 操作 ， 比 如 添加 用 户 
资料 。 这 些 消 息 被 发 布 到 一 个 或 多 个 主题 上 ， 由 后 端 应 用 程序 负责 读 取 。 这 
样 ， 我 们 就 可 以 生成 报告 ， 为 机 器 学 习 系统 提供 数据 ， 更 新 搜索 结果 ， 或 者 
实现 其 他 更 多 的 功能 。 


02. 传递 消息 


Kafka 的 另 一 个 基本 用 途 是 传递 消息 。 应 用 程序 向 用 户 发 送 通知 (比如 邮 
件 ) 就 是 通过 传递 消息 来 实现 的 。 这 些 应 用 程序 组 件 可 以 生成 消息 ， 而 不 需 


03. 


04. 


05. 


要 关心 消息 的 格式 ， 也 不 需要 关心 消息 是 如 何 被 发 送 的 。 一 个 公共 应 用 程序 


会 读 取 这 些 消息 ， 对 它们 进行 处 理 : 


。 格式 化 消息 (也 就 是 所 谓 的 装饰 ); 
。 将 多 个 消息 放 在 同一 个 通知 里 发 送 ; 
。 根据 用 户 配置 的 首选 项 来 发 送 数据 。 


使 用 公共 组 件 的 好 处 在 于 ， 不 需要 在 多 个 应 用 程序 上 开发 重复 的 功能 ， 而 且 


可 以 在 公共 组 件 上 做 一 些 有 趣 的 转换 ， 比 如 把 多 个 消息 聚合 成 一 个 单独 的 通 


知 ， 而 这 些 工 作 是 无 法 在 其 他 地 方 完 成 的 。 
度量 指标 和 日 志 记录 


Kafka 也 可 以 用 于 收集 应 用 程序 和 系统 度量 指标 以 及 日 志 。Kafka 文 持 多 个 生 
产 考 的 特性 在 这 个 时 候 束 可 以 派 上 用 场 。 应 用 程序 定期 把 度量 指标 发 布 到 
Kafka 主题 上 ， 监 的 0 警 系统 读 取 这 些 消息 。Kafka 也 可 以 用 在 像 
Hadoop 这 样 的 离线 系统 统 上 ， 进 行 较 长 时 间 片 段 的 数据 分 析 ， 比 如 年 度 增长 走 


势 预 测 。 日 志 消息 也 可 以 被 发 布 到 Kafka 主题 上 ， 然 后 被 路 由 


到 专门 的 日 志 


委 索 系统 (比如 Elasticsearch) 或 安全 分 析 应 用 程 


RE 


部 。 更 改 目 标 系 统 (比如 


不 会 影响 到 前 端 应 用 或 聚合 方法 ， 这 是 Kafka 的 另 一 个 优 


提交 日 志 
Kafka 的 基本 概念 来 源 于 提交 日 志 ， 所 以 使 用 Kafka 作为 提交 


志 是 件 顺 理 


成 章 的 事 。 我 们 可 以 把 数据 库 的 更 新 发 布 到 Kafka 上 ， 应 用 程序 通过 监 控 事 
件 流 来 接收 数据 库 的 实时 更 新 。 这 种 变更 日 志 流 也 可 以 用 于 把 数据 库 的 更 新 
复制 到 远程 系统 上 ， 或 者 合并 多 个 应 用 程序 的 更 新 到 一 个 单独 的 数据 库 视 图 


上 。 数 据 持久 化 为 变 :更 日 志 提 供 了 缓冲 区 ， 也 就 是 说 ， 如 果 ; 


泊 费 者 应 用 程序 


发 生 故 障 ， 可 以 通过 重 放 这 些 日 志 来 恢复 系统 状态 。 另 外 ， 紧 恋 型 日 志 主 题 
只 为 每 个 键 保留 一 个 变更 数据 ， 所 以 可 以 长 时 间 使 用 ， 不 需要 担心 消息 过 期 


问题 。 


流 处 理 


流 处 理 是 又 一 个 能 提供 多 种 类 型 应 用 程序 的 领域 。 可 以 说 ， 它 们 提供 的 功能 
与 Hadoop 里 的 map 和 reduce 有 点 类 似 ， 只 不 过 它们 操作 的 是 实时 数据 流 ， 
而 Hadoop 则 处 理 更 长 时 间 片 段 的 数据 ， 可 能 是 几 个 小 时 或 者 几 天 ， Hadoop 


会 对 这 些 数据 进行 批 处 理 。 ° 通过 使 用 流 式 处 理 框架 ， 用 户 可 以 编写 小 型 应 用 
程序 来 操作 Kafka 消息 ， 比 如 计算 度量 指标 ， 为 其 他 应 用 程序 有 效 地 处 理 消 


奶 分 区 ， 或 者 对 来 自 多 个 数据 源 的 消息 进行 转换 。 第 11 章 将 通过 其 他 案例 


介绍 流 处 理 。 


1.5 ”起源 故事 

Kafka 古 为 了 解决 LinkedIn 数据 管 间 问题 应 运 而 生 的 。 它 的 设计 目的 是 提供 一 个 
高 性 能 的 消 筷 系统 ， 可 以 处 理 多 种 数据 类 型 ， 并 能 够 实时 提供 纯净 且 结 构 化 的 用 

户 活动 数据 和 系统 统 度量 指标 。 


数据 为 我 们 所 做 的 每 一 件 事 提供 了 动力 。 


Jeff Weiner, LinkedIn CEO 


1.5.1 LinkedIn 的 问题 


本 章 开头 提 到 过 ，LinkedIn 有 一 个 数据 收集 系统 和 应 用 程序 指标 ， 它 使 用 自 定 义 
的 收集 器 和 一 些 开 源 工 具 来 保存 和 展示 内 部 数据 。 除了 跟 唆 CPU 使 用 率 和 应 用 
性 能 这 些 一 般 性 指标 外 ，LinkedIn 还 有 一 个 比较 复杂 的 用 户 请 求 跟踪 功能 。 它 使 
用 了 监控 系统 ， 可 以 跟踪 单个 用 户 的 请 求 是 如 何在 内 部 应 用 间 传 播 的 。 不 过 监控 

系统 存在 很 多 不 足 。 它 使 用 的 是 轮 询 拉 取 度量 指标 的 方式 ， 指标 之 间 的 时 间 间 陋 
较 长 ， 而 且 没 有 目 助 服务 能 力 。 它 使 用 起 来 不 太 方便 ， 很 多 简单 的 任务 需要 人 工 
， ， 而 且 一 致 性 较 差 ， 同 一 个 度量 指标 的 名 字 在 不 同系 统 里 的 叫 法 不 


与 此 同时 ， 我 们 还 创建 了 另 一 个 用 于 收集 用 户 活 动 信 息 的 系统 。 这 是 一 个 HITP 
服务 ， 前 端的 服务 器 会 定期 连接 进来 ， 下 上 上 面 用 机 
些 消 息 文件 被 转移 到 线 下 进行 解析 和 校对 。 同 样 ， 这 个 系统 也 存在 很 多 不 足 。 
XML 文件 的 格式 无 法 保持 一 致 ， 而 且 解 析 XML 文件 非常 档 弗 计算 筑 源 。 要 想 更 
改 所 创建 的 活动 类 型 ， 需 要 在 前 端 应 用 和 离线 处 理 程序 之 间 做 大 量 的 协调 工作 。 
即使 是 这 样 ， 在 更 改 数 据 结构 时 ， 仍 然 经 常 出 现 系统 裔 尝 现 象 。 而 且 批 处 理 时 间 
以 小 时 计算 ， 无 法 用 它 完成 实时 的 任务 。 


de dh et ie te i 
适用 于 活动 跟踪 ， 而 且 无 法 在 活动 跟踪 中 使 用 轮 询 拉 取 模型 。 一 方面， ce 限 际 
ee 批 处 理 模型 不 适用 于 实时 的 监控 和 告 ps 

， 好 在 数据 间 存 在 很 多 共性 ， 信 息 二 如 特定 类型 的 订户 问号 对 应 用 程序 从 能 
本 多 啊 ) 之 间 的 关联 度 还 是 很 高 的 。 特定 类 型 用 户 活动 数量 的 下 降 说 明 相 关 应 用 
程序 存在 问题 ， 不 过 批 处 理 的 长 时 间 延 迟 意味 着 无 法 对 这 类 问题 作出 及 时 的 反 


霹 。 


最 开始 ， 我 们 调研 了 一 些 现成 的 开源 解决 方案 ， 布 望 能 够 找到 一 个 系统 ， 可 以 实 
时 访问 数据 ， 并 通过 横向 扩展 来 处 理 大 量 的 消息 。 我 们 使 用 ActiveMQ 创建 了 一 
个 原型 系统 ， 但 它 当 时 还 无 法 满足 横向 扩展 的 需求 。LinkedIn 不 得 不 使 用 这 种 脆 
弱 的 解决 方案 虽然 ActiveMQ 有 很 多 缺陷 会 导致 broker 暂停 服务 。 客 户 端的 连 
人 能 力也 受到 影响 。 于 有 是 我 们 最 后 决定 构建 自己 的 
基础 设施 。 


1.5.2 ”Kafka 的 诞生 


LinkedIn 的 开发 团队 由 Kreps 领导 。Jay Kreps 是 LinkedIn 的 首席 工程 师 ， 之 
前 负责 分 布 式 键 值 存 储 系统 Voldemort 的 开发 。 初 建 团 队 成 员 还 包括 Neha 
Narkhede， 不 久之 后 ，Jun Rao 也 加 入 了 进来 。 他 们 一 起 着 手 创建 一 个 消息 系 
a 述 的 两 种 需求 ， 并 且 可 以 在 未 来 进行 横向 扩展 。 他 们 的 主要 
示 旭 小 : 


使 用 推送 和 拉 取 梧 型 解 炎 生产 着 和 消 弛 费 者 ; 

肖 恩 传递 系统 中 的 消息 提供 :数据 持久 化 ， 以 便 文 持 多 个 消费 者 ; 
通过 系统 优化 实现 高 于 吐 量 ; 
系统 可 以 随 着 数据 流 的 增长 进行 横向 扩展 。 


最 后 我 们 看 到 的 这 个 发 布 与 订阅 消息 系统 具有 典型 的 消息 息 系统 接口 ， 但 从 存储 层 
来 看 ， 它 更 像 是 一 个 日 志 聚 合 系 统 。Kafka 使 用 Avro 作为 消息 序列 化 框架 ， 每 天 

高 效 地 处 理 数 十 亿 级 别 的 度量 最 指标 和 用 户 活动 中 际 信息 息 。LinkedIn 已 经 拥有 超过 
万 亿 级 别 的 消 息 使 用 量 (截止 到 2015 年 8 月 ) ， 而 且 每 天 仍然 需要 处 理 超 过 于 
万 亿 字 节 的 数据 。 


1.5.3 ”走向 开源 


2010 年 底 ，Kafka 作为 开源 项 目 在 GitHub 上 发 布 。2011 年 7 月 ， 因为 倍 受 开源 
社区 的 关注 ， 它 成 为 Apache 软件 基金 会 的 摔 化 器 项 目 。2012 年 10 月 ，Kafka 从 
孵化 器 项 目 毕 业 。 从 那 时 起 ， 来 自 LinkedIn 内 部 的 开发 团队 一 直 为 Kafka 提供 大 
力 支持 ， 而 且 吸 引 了 大 批 来 自 LinkedIn 外 部 的 贡献 者 和 参与 者 。 现 在 ，Kafka 被 
很 多 组 织 用 在 一 些 大 型 的 数据 管道 上 。2014 年 秋天 ，Jay Kreps 、 Neha Narkhede 
和 Jun Rao 离开 LinkedIn， 创 办 了 Confluent 。 Confluent 是 一 个 致力 于 为 企业 开发 
提供 支持 、 为 Kafka 提供 培训 的 公司 。 这 两 家 公司 连同 来 引 开 源 社区 持续 增长 的 
贡献 力量 ， 在 开发 和 维护 Kafka， 让 Kafka 成 为 大 数据 管道 的 不 二 之 选 。 


1.5.4 ”命名 


关于 Kafka 的 历史 ， 人 们 经 常会 问 到 的 一 个 问题 就 是 ，Kafka 这 个 名 字 是 怎么 想 
出 来 的 ， 以 及 这 个 名 字 和 这 个 项 目 之 间 有 着 怎样 的 联系 。 对 于 这 个 问题 ，Jay 
Kreps 解释 如 下 : 


我 想 既 然 Kafka 是 为 了 写 数 据 而 产生 的 ， 那 么 用 作家 的 名 字 来 命名 会 显得 更 
有 意义 。 我 在 大 学 时 期 上 过 很 多 文学 课程 ， 很 时 喜欢 Franz Kafka。 襄 且 ， 对 于 
页 目 来 说 ， 这 个 名 字 听 起 来 很 酷 。 因 此 ， 名 字 和 应 用 本 身 基 本 没有 太 多 


1.6 ”开始 Kafka 之 旅 


二 


| 


" 


现在 我 们 对 Kafka 已 经 有 了 一 个 大 体 的 了 解 ， 还 知道 了 一 些 芝 见 的 术语 ， 接 下 来 
可 以 开始 使 用 Kafka 来 创建 数据 管道 了 。 在 下 一 革 ， 我 们 将 探究 如 何 安 装 和 配置 
Kafka， 还 会 讨论 如 何 选择 合适 的 硬件 来 运行 Kafka， 以 及 把 Kafka 应 用 到 生产 环 
境 需 要 注意 的 事项 。 


第 2 间 安装 Kafka 


这 一 草 将 介绍 如 何 安装 和 运行 Kafka， 包 括 如 何 设置 Zookeeper (Kafka 使 用 
Zookeeper 保存 Broker 的 元 数据 ) ， 还 会 介绍 Kafka 的 基本 配置 ， 以 及 如 何 为 
Kafka 选择 合适 的 硬件 ， 最 后 介绍 如 何在 一 个 集群 中 安装 多 个 Kafka broker， 以 及 
把 Kafka 应 用 到 生产 环境 需要 注意 的 事项 。 


2.1 要 事先 行 
在 使 用 Kafka 之 前 需要 先 做 一 些 事 情 ， 接 下 来 介绍 怎样 做 。 
2.1.1 选择 操作 系统 


Kafka 是 使 用 Java 开发 的 应 用 程序 ， 所 以 它 可 以 运行 在 Windows、MacOS 和 
Linux 等 多 种 操作 系统 上 。 本 章 将 着 重 介 绍 如 何在 Linux 上 安装 和 使 用 Kafka， 
为 把 Kafka 安装 在 Linux 系统 上 是 最 为 常见 的 。 即 使 只 是 把 Kafka 作为 一 般 性 用 
途 ， 仍 然 推荐 使 用 Linux 系统 。 关 于 如 何在 Windows 和 MacOS 上 安装 Kafka， 请 
参考 附录 A。 


2.1.2 ”安装 Java 


在 安装 Zookeeper 和 Kafka 之 前 ， 需 要 先 安 装 Java 环境 。 这 里 推荐 安装 Java 8， 
可 以 使 用 系统 上 自 带 的 安装 包 ， 也 可 以 直接 从 java.com 网 站 下 载 。 虽 然 运 行 
Zookeeper 和 Kafka 只 需要 Java 运行 时 版 本 ， 但 也 可 以 安装 完整 的 JDK， 以 备 不 
时 之 需 。 假 设 JDK 8 update 51 已 经 安装 在 /usr/java/jdk1.8.0_51 目录 下 ， 其 他 软件 
的 安装 都 是 基于 这 个 前 提 进 行 的 。 


瑟 


2.1.3 ”安装 Zookeeper 


Kafka 使 用 Zookeeper 保存 集群 的 元 数据 言 息 和 消费 者 信息 。Kafka 发 行 版 自 带 了 
Zookeeper， 可 以 直接 从 脚本 启动 ， 不 过 安装 一 个 完整 版 的 Zookeeper 也 并 不 费 
劲 。 


消费 者 
Kafka Broker ( 旧 的 ) 


举 如 者 元 数据 
分 区 偏 移 量 


broker 和 主题 
元 数据 


Zookeeper 


图 2-1: Kafka 和 Zookeeper 


Zookeeper 的 3.4.6 稳定 版 已 经 在 Kafka 上 做 过 全 面 测试 ， 可 以 从 apache.org 下 载 
该 版 本 的 Zookeeper: http://bit.ly/2sDWSg]J 。 


01. 单机 服务 


下 面 的 例子 演示 了 如 何 使 用 基本 的 配置 安装 Zookeeper， 安 装 目录 为 
/usr/local/zookeeper， 数 据 目 录 为 /var/lib/zookeeper 。 


tar -zxf zookeeper-3.4.6.tar.gz 

mv zookeeper-3.4.6 /usr/local/zookeeper 

mkdir -p /var/lib/zookeeper 

cat > /usr/local/zookeeper/conf/zoo.cfg << EOF 
tickTime=2000 

dataDir=/var/l1ib/zookeeper 

clientPort=2181 

EOF 

export JAVA HOME=/usr/java/jdk1i.8.0_51 
/usr/local/zookeeper/bin/zkServer.sh start 

JMX enabled by default 

Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg 
Starting zookeeper ... STARTED 

# 


亲 半 VV VV 亲 亲 亲 壮 


现在 可 以 连 到 Zookeeper 端口 上 ， 通 过 发 送 四 字 命 令 srvr 来 验证 Zookeeper 
是 否 安装 正确 。 


# telnet localhost 2181 
Trying ::1... 

Connected to localhost. 
Escape character is '^]' 


Srvr 


Zookeeper version: 3.4.6-1569965, built on 02/20/2014 09:09 GMT 
Latency min/avg/max: 0/0/0 


Sent: 0 

Connections: 1 

Outstanding: 0 

Zxid: 0x0 

Mode: standalone 

Node count: 4 

Connection closed by foreign host. 
# 


02. Zookeeper 群 组 (Ensemble) 


Zookeeper 集群 被 称 为 群 组 。Zookeeper 使 用 的 是 一 致 性 协议 ， 所 以 建议 每 个 
群 组 里 应 该 包含 奇数 个 节点 (比如 3 个、5 个 等 ， 因 为 只 有 当 群 组 里 的 大 
多 数 节 点 (也 就 是 法 定 人 数 ) 处 于 可 用 状态 ，Zookeeper 才能 处 理 外 部 的 请 
求 。 也 就 是 说 ， 如 果 你 有 一 个 包含 3 个 节点 的 群 组 ， 那 么 它 允 许 一 个 节点 失 
效 。 如 果 群 组 包含 5 个 节点 ， 那 么 它 允 许 2 个 节点 失效 。 


和 群 组 节点 个 数 的 选择 


假设 有 一 个 包含 5 个 节点 的 群 组 ， 如 果 要 对 群 组 做 一 些 包括 更 换 节 点 在 
内 的 配置 更 改 ， 需 要 依次 重启 每 一 个 世 点 。 如 果 你 的 群 组 无 法 容忍 多 个 
节点 失效 ， 那 么 在 进行 群 组 维护 时 束 会 存在 风险 。 不 过 ， 也 不 建议 一 个 
群 组 包含 超过 7 个 节点 ， 因 为 Zookeeper 使 用 了 一 致 性 协议 ， 节 点 过 多 
会 降低 整个 群 组 的 性 能 。 


群 组 需要 有 一 些 公共 配置 ， 上 面 列 出 了 所 有 服务 器 的 清单 ， 并 且 每 个 服务 器 
还 要 在 数据 目录 中 创建 一 个 myid 文件 ， 用 于 指明 自己 的 ID。 如 有 果 群 组 里 服 
务 器 的 机 器 名 是 zoo1.example.com 、zo002.example.com 、z003.example.com,， 


那么 配置 文件 可 能 是 这 样 的 : 


TH 


tickTime=2000 
dataDir=/var/l1ib/zookeeper 
clientPort=2181 

initLimit=20 

syncLimit=5 
server.1=z001.example.com:2888:3888 


server .2=z002.example.com:2888:3888 
server.3=z003.example.com:2888:3888 


在 这 个 


间 上 聊 


20*2000ms, 
地 址 遵循 


数 说 明 如 下 : 


X 


服务 器 的 ID， 它 必须 是 一 个 整数 ， 不 过 不 一 定 要 从 0 开始 ， 也 不 要 求 是 


连续 的 ; 


hostname 


服务 器 的 机 器 名 或 人 P 地 址 ; 


peerPort 


用 


leaderPort 


用 于 首领 


客户 端 


时 用 到 这 


六 配置 中 ， 
接 的 时 间 上 限 ， 
妇 。 这 两 个 值 都 是 tickTime 的 倍数 ， 所 以 initLimit 是 
也 就 是 40s。 配 置 里 还 列 出 了 群 组 中 所 有 服务 器 的 地 址 。 服 务 器 


server .X=hostname:peerPort:leaderPort 格式 ， 各 个 参 


initLimit 表示 用 于 在 从 节点 与 
syncLimit 表示 人 允许 从 和 点 与 主 


主 下 点 之 间 建 立 初始 化 连 
节点 处 于 不 同步 状态 的 时 


于 点 间 通 信 的 TCP 端口 ; 


选举 的 TCP 端口。 


席 只 需要 通过 clientPort 就 能 连接 到 群 组 ， 而 群 组 节点 间 的 通信 则 需要 同 


3 个 端口 (peerPort 、leaderPort、clientPort) 。 


除了 公共 的 配置 文件 外 ， 每 个 服务 器 都 必须 在 data Dir 目录 中 创建 一 个 叫 作 
myid 的 文件 ， 文 件 里 要 包含 服务 器 ID， 这 个 ID 要 与 配置 文件 里 ID 
致 。 完 成 这 些 步骤 后 ， 就 可 以 启动 服务 器 ， 让 它们 彼此 间 进 行 通信 


保持 一 
下 


2.2 ”安装 Kafka Broker 

配置 好 Java 和 Zookeeper 之 后 ， 接 下 来 就 可 以 安装 Kafka 了。 可 以 从 
http://kafka.apache. org/downloads. html 下 载 最 新 版 本 的 Kafka。 截 至 本 书写 作 时 ， 
Kafka 的 版 本 是 0.9.0.1， 对 应 的 Scala 版 本 是 2.11.0。 


下 面 的 例子 将 Kafka 安装 在 /usr/local/kafka 目录 下 ， 使 用 之 前 配置 好 的 


Zookeeper, 


并 把 消息 日 


志保 存在 /tmp/kafka-logs 目录 下 。 


# tar -zxf kafka_ 2.11-0.9.0.1.tgz 

# mv kafka_2.11-0.9.0.1 /usr/local/kafka 
# mkdir /tmp/kafka-logs 

# export JAVA _ HOME=/usr/java/jdk1i.8.0_51 


# /usr/local/kafka/bin/kafka-server-start.sh -daemon 
/usr/local/kafka/config/server.properties 
# 


一 旦 Kafka 创建 完毕 ， 就 可 以 对 这 个 集群 做 一 些 簿 单 的 操作 来 验证 它 是 否 安装 正 
确 ， 比 如 创建 一 个 测试 主题 ， 发 布 一 些 消息 ， 然 后 读 取 它们 。 


创建 并 验证 主题 : 


# /usr/local/kafka/bin/kafka-topics.sh --create --zookeeper localhost:2181 
--replication-factor 1 --partitions 1 --topic test 
Created topic "test",. 
# /usr/local/kafka/bin/kafka-topics.sh --zookeeper localhost:2181 
--describe --topic test 
Topic:test PartitionCount:1 ReplicationFactor:1 Configs : 
Topic: test Partition: 0 Leader: 0 Replicas: 0 Isr: 0 
# 


往 测 试 主题 上 发 布 消 息 : 


# /usr/local/kafka/bin/kafka-console-producer.sh --broker-list 
localhost:9092 --topic test 

Test Message 1 

Test Message 2 

AD 

# 


从 测试 主题 上 读 取 消息 : 


# /usr/local/kafka/bin/kafka-console-consumer.sh --zookeeper 
lJocalhost:2181 --topic test --from-beginning 

Test Message 1 

Test Message 2 

AC 


Consumed 2 messages 
# 


2.3 ”broker 配 置 


Kafka 发 行 包 里 自 带 的 配置 样本 可 以 用 来 安装 单机 服务 ， 但 并 不 能 满足 大 多 数 安 
装 场景 的 要 求 。Kafka 有 很 多 配置 选项 ， 涉 及 安装 和 调 优 的 方方面面 。 不 过 大 多 
数 调 优选 项 可 以 使 用 默认 配置 ， 除 非 你 对 调 优 有 特别 的 要 求 。 


2.3.1 ”常规 配置 


有 一 些 配 置 选项 ， 在 单机 安装 时 可 以 直接 使 用 默认 值 ， 但 在 部 署 到 其 他 环境 时 要 
格外 小 心 。 这 些 参数 是 单个 服务 器 最 基本 的 配置 ， 它 们 中 的 大 部 分 需要 经 过 修改 
后 才能 用 在 集群 里 。 


01. broker.id 


每 个 broker 都 需要 有 一 个 标识 符 ， 使 用 brokerid 来 表示 。 它 的 默认 值 是 0， 
也 可 以 被 设置 成 其 他 任意 整数 。 这 个 值 在 整个 Kafka 集群 里 必须 是 唯一 的 。 
这 个 值 可 以 任意 选 定 ， 如 果 出 于 维护 的 需要 ， 可 以 在 服务 器 节点 间 交 换 使 用 
这 些 ID。 建 议 把 它们 设置 成 与 机 器 名 具有 相关 性 的 整数 ， 这 样 在 进行 维护 
时 ， 将 ID 号 映射 到 机 器 名 吏 没 那么 麻烦 了 。 例 如 ， 如 果 机 器 名 包含 唯一 性 
的 数字 (比如 host1.example.com、host2.example.com) ， 那 么 用 这 些 数字 来 
设置 broker.id 就 再 好 不 过 了 。 


02. port 


如 果 使 用 配置 样本 来 启动 Kafka， 它 会 监听 9092 端口 。 修 改 port 配置 参数 
可 以 把 它 设置 成 其 他 任意 可 用 的 端口 。 要 注意 ， 如 果 使 用 1024 以 下 的 端 
口 ， 需 要 使 用 root 权限 启动 Kafka， 不 过 不 建议 这 么 做 。 


03. zookeeper.connect 


用 于 保存 broker 元 数据 的 Zookeeper 地 址 太 通 过 zookeeper ,connect 来 
指定 的 。localhost :2181 表示 这 个 Zookeeper 是 运行 在 本 地 的 2181 端口 
上 “。 该 配置 参数 是 用 冒号 分 隔 的 一 组 Pe :port/path 列表 ， 每 一 部 
分 的 含义 如 下 : 


。 hostname 是 Zookeeper 服务 器 的 机 器 名 或 IP 地 址 ; 

。 port 是 Zookeeper 的 客户 端 连 接 端口 ; 

。/path 是 可 选 的 Zookeeper 路 径 ， 作 为 Kafka 集群 的 chroot 环境 。 如 果 不 
指定 ， 默 认 使 用 根 路 径 。 


如 果 指 定 的 chroot 路 径 不 存在 ，broker 会 在 启动 的 时 候 创建 它 


欠 为 什么 使 用 chroot 路 径 


在 Kafka 集群 里 使 用 chroot 路 径 是 一 种 最 佳 实践 。Zookeeper 群 组 可 以 
共享 给 其 他 应 用 程序 ， 即 使 还 有 其 他 Kafka 集群 存在 ， 也 不 会 产生 冲 
突 。 最 好 是 在 配置 文件 里 指定 一 组 Zookeeper 服务 器 ， 用 分 号 把 它们 隔 
开 。 一 旦 有 一 个 Zookeeper 服务 器 宕 机 ，broker 可 以 连接 到 Zookeeper 群 


组 的 男 一 人 1 节点 上 。 
04. log.dirs 
Kafka 把 所 有 消息 都 保存 在 人 磁盘 上 ， ee 
指定 的 。 它 是 一 组 用 如 号 分 隔 的 本 地 文件 系统 路 径 。 如 果 指 定 了 多 个 路 径 ， 


那么 broker 会 根据 “最 少 使 用 ”原则 ， 苍 同 “个 分 区 的 正直 片段 保存 到 同 下 
路 径 下 。 要 注意 ，broker 会 往 拥 有 最 少数 目 分 区 的 路 径 新 增 分 区 ， 而 不 是 往 
拥有 最 小 磁 副 空间 的 路 径 新 增 分 区 。 


05. num.recovery.threads.per.data.dir 
对 于 如 下 3 种 情况 ，Kafka 会 使 用 可 配置 的 线程 池 来 处 理 日 志 片 段 : 


。 服务 器 正常 启动 ， 用 于 打开 每 个 分 区 的 日 志 片 段 ; 
。 服务 器 前 溃 后 重启 ， 用 于 检查 和 截 短 每 个 分 区 的 日 志 片 段 ; 
。 服务 器 正常 关闭 ， 用 于 关闭 日 志 片 段 。 


默认 情况 下 ， 每 个 日 志 目 录 只 使 用 一 个 线程 。 因 为 这 些 线程 只 是 在 服务 器 启 
动 和 关闭 时 会 用 到 ， 所 以 完全 可 以 设置 大 量 的 线程 来 达到 并 行 操作 的 目的 。 
特别 是 对 于 包含 大 量 分 区 的 服务 器 来 说 ， 一 旦 发 生 朋 江 ， 在 进行 恢复 时 使 用 
并 行 操作 可 能 会 省 下 数 小 时 的 时 间 。 设 置 此 参数 时 需要 注意 ， 所 配置 的 数字 
对 应 的 是 log.dirs 指定 的 单个 日 志 目 录 。 也 就 是 说 ， 如 果 
num.recovery.threads .per .data.dir 被 设 为 8， 并 且 lo0g .dir 指 
定 了 3 个 路 径 ， 那 么 总 共 需 要 24 个 线程 。 


06. auto.create.topics.enable 
默认 情况 下 ，Kafka 会 在 如 下 几 种 情形 下 自动 创建 主题 : 


。 当 一 个 生产 者 开始 往 主题 写 入 消息 时 ， 
。 当 一 个 消费 者 开始 从 主题 读 取消 息 时 ， 
。 当 任意 一 个 客户 端 向 主题 发 送 元 数据 请 求 时 。 


很 多 时 候 ， 这 些 行为 都 是 非 预期 的 。 而 且 ， 根 据 Kafka 协议 ， 如 果 一 个 主题 
不 移 被 创建 ， 根 本 无 法 知道 它 是 否 已 经 存在 。 如 果 显 式 地 创建 主题 ， 不 管 是 
手动 创建 还 是 通过 其 他 配置 系统 来 创建 ， 都 可 以 把 


auto.create.topics,enable 设 为 false。 


2.3.2 ”主题 的 默认 配置 


Kafka We 了 很 多 默认 配置 参数 。 可 以 通过 管理 工具 (将 在 第 9 
章 介 绍 ) 为 每 个 主题 单独 配置 一 部 分 参数 ， 比 如 4 人 服务 
器 提供 的 默认 配置 可 以 作为 基准 ， 它 们 适用 于 大 部 分 主题 。 


\ 使 用 主题 配置 覆盖 (override) 
之 前 的 Kafka 版 本 允许 主题 和 覆盖 服务 器 的 默认 配置 ， 包 括 


log.retention.hours.per.topic 、 
1og.retention.bytes.per.topic 和 1og.seg 

ment .bytes.per.topic 这 几 个 参数 。 新 版 本 不 再 文 持 这 些 参数 ， 而 且 如 
果 要 对 参数 进行 履 盖 ， 需 要 使 用 管理 工具 。 


01. num.partitions 


num.partitions 参数 指定 了 新 创建 的 主题 将 包含 多 少 个 分 区 。 如 果 启 用 
了 主题 自动 创建 功能 (该 功能 默认 是 启用 的 ) 的 人 数 就 是 该 参数 
指定 的 值 。 该 参数 的 默认 值 是 1。 要 注意 ， 我 们 可 以 增加 主 题 分 区 的 个 数 ， 

但 不 能 减少 分 区 的 个 数 。 所 以 ， 如 果 要 让 一 个 主题 的 分 区 个 数 少 于 
num. partitions 指定 的 值 ， 需 要 手动 创建 该 主题 〈 将 在 第 9 章 讨论 ) 。 


第 1 章 里 已 经 提 到 ，Kafka 集群 通过 分 区 对 主题 进行 横 癌 扩 展 ， 所 以 当 有 新 
的 broker 加 入 集群 时 ， 可 以 通过 分 区 个 数 来 实现 集群 的 负载 均衡 。 当 然 ， 这 
1 大 号 在 存在 多 个 主题 的 情况 下 (它们 分 布 在 多 个 broker 上 ) ,为 了 能 

分 区 分 布 到 所 有 a 上 ， 主 题 分 区 的 个 数 必 须要 大 于 broker 的 个 数 。 1 
1 拥有 大 量 消 息 的 主题 如 果 要 进行 负载 分 散 ， 束 需要 大 量 的 分 区 。 


和 如 何 选 定 分 区 数量 


为 主题 选 定 分 区 数量 并 不 是 一 件 可 有 可 无 的 事情 ， 在 进行 数量 选择 时 ， 
需要 考虑 如 下 几 个 因素 。 
。 主题 需要 达到 多 大 的 吞吐 量 ?” 例如 ， 是 希望 每 秒 钟 写 入 100KB 还 是 
1GB 


。 从 单个 分 区 读 取 数据 的 最 大 吞吐 量 是 多 少 ? 每 个 分 区 一 般 都 会 有 一 
个 消费 者 ， 如 果 你 知道 消费 者 将 数据 本 入 数据 库 的 速度 不 会 超过 每 

秒 50MB， 那 么 你 也 该 知道 ， 从 一 个 分 区 读 取 数据 的 吞吐 量 不 需要 

超过 每 秒 50MB。 

可 以 通过 类 似 的 方法 估算 生产 者 各 单个 分 区 写 入 数据 的 吞吐 量 ， 不 

时 最、 般 比 消费 者 快 得 多 ， 所 以 最 好 为 生产 者 多 估算 一 

[十 量 。 
。 每 个 broker 包含 的 分 区 个 数 、 可 用 的 磁盘 空间 和 网 络 带宽 。 


0 


0 


DD 


(Se) 


。 分 区 的 ， 那 么 为 已 有 的 主题 新 增 分 
x 束 会 很 因 X 

。 5 分 区 个 数 是 有 限制 的 ， 因 为 分 区 越 多 ， 占 用 的 内 存 越 
， 完 成 首领 选举 需要 的 时 间 也 越 长 。 


很 显然 ， 综 合 考 虑 以 上 几 个 因素 ， 你 需要 很 多 分 区 ， 但 不 能 太 多 。 如 果 你 估 
算出 主题 的 吞吐 量 和 消费 者 吞吐 量 ， 可 以 用 主题 天 时 量 除 以 消费 者 吞 叶 量 算 
出 分 区 的 个 数 。 也 就 是 说 ， 如 果 每 秒 钟 要 从 主题 上 写 入 和 读 取 1GB 的 数据 ， 
并 且 每 个 消费 者 每 秒 钟 可 以 处 理 50MB 的 数据 ， 那 么 至 少 需要 20 个 分 区 。 

20 个 消费 者 同时 读 取 这 些 分 区 ， 从 而 达到 每 秒 钟 1GB 的 吞吐 


如 果 不 知道 这 些 信息 ， 那 么 根据 经 验 ， 把 分 区 的 大 小 限制 在 25GB 以 内 可 以 
得 到 比较 理想 的 效果 。 


. log.retention.ms 


Kafka 通常 根据 时 间 来 决定 数据 可 以 被 保留 多 久 。 默 认 使 用 

lo0g .retention .hours 参数 来 配置 时 间 ， 默 认 值 为 168 小 时 ， 也 就 是 一 

周 。 除 此 以 外 ， 还 有 其 他 两 个 参数 1og ,retention.minutes 和 

log.retention.ms。 这 3 个 参数 的 作用 是 一 样 的 ， 都 是 决定 消息 多 久 以 
会 被 删除 ， 不 过 还 是 推荐 使 用 lo0g .retention .ms 。 如 果 指 定 了 不 上 一 

个 参数 ，Kafka 会 优先 使 用 具有 最 小 值 的 那个 参数 。 


和 根据 时 间 保 留 数据 和 最 后 修改 时 间 


根据 时 间 保 留 数据 是 通过 检查 磁 强 上 日 志 片 段 文件 的 最 后 修改 时 间 来 实 
现 的 。 一 般 来 说 ， 最 后 修改 时 间 指 的 就 是 日 志 片 段 的 关闭 时 间 ， 也 残 是 
文件 里 最 后 一 个 消息 的 时 间 戳 。 不 过 ， 如 果 使 用 管理 工具 在 服务 器 间 移 
动 分 区 ， 最 后 修改 时 间 就 不 准确 了 。 时 间 误 差 可 能 导致 这 些 分 区 过 多 地 
保留 数据 。 在 第 9 章 讨论 分 区 移动 时 会 提 到 更 多 这 方面 的 内 容 。 


. log.retention.bytes 


男 一 种 方式 是 通过 保留 的 消息 字 节 数 来 判断 消息 是 否 过 期 。 它 的 值 通过 参数 
lo0g.retention.bytes 来 指 作用 在 每 一 个 分 区 上 。 也 就 是 说 ， 如 果 
有 一 个 包含 8 个 分 区 的 主题 ， 并 且 log ,retention .bytes 被 设 为 1GB， 

那么 这 个 主题 最 多 可 以 保留 8GB 的 数据 。 所 以 ， 当 主题 的 分 区 个 数 增加 时 ， 
整个 主题 可 以 保留 的 数据 也 随 之 增加 。 


和 根据 字 节 大 小 和 时 间 保 留 数据 


如 果 同 时 指定 了 log.retention.bytes 和 1og,retention.ms 

(或 者 另 一 个 时 间 参 数 ) ， 只 要 任意 一 个 条 件 得 到 满足 ， 消 息 就 会 被 删 
除 。 例 如 ， 假 设 1og, retention,ms 设置 为 86 400 000 〈 也 就 是 1 
天 ) ，1og,retention.bytes 设置 为 1000 000 000 (也 就 是 
1GB) ， 如 果 消 息 字 蔬 总 数 在 不 到 一 天 的 时 间 束 超过 了 1GB， 那 么 多 出 
来 的 部 分 就 会 被 删除 。 相 反 ， 如 果 消 息 字 节 总 数 小 于 1GB， 那 么 一 天 之 
后 这 些 消息 也 会 被 删除 ， 尽 管 分 区 的 数据 总 量 小 于 1GB。 


04. log.segment.bytes 


以 上 的 设置 都 作用 在 日 志 片 段 上 ， 而 不 是 作用 在 单个 消息 上 。 当 消息 到 达 
broker 上 时， 它们 被 追加 到 分 区 的 当前 日 志 片 段 上 。 当 日 志 片 段 大 小 达到 
log .segment.bytes 指定 的 上 限 (默认 是 1GB) 时 ， 当 前 0 
被 关闭 ， 一 个 新 的 日 志 片 段 被 打开 。 如 果 一 个 日 志 片 段 被 关闭 ， 就 开始 等 

过 期 。 这 个 参数 的 值 越 小 ， 就 会 越 频繁 地 关闭 和 分 配 新 文件 ， 从 而 降低 磁盘 
写 入 的 整体 效率 。 


如 果 主 题 的 消息 量 不 大 ， 那 么 如 何 调整 这 个 参数 的 大 小 就 变 得 尤为 重要 。 例 
如 ， 如 果 一 个 主题 每 天 只 接收 100MB 的 消息 ， 而 1og.segment ,bytes 使 
用 默认 设置 ， 那 么 需要 10 天 时 间 才 能 填 满 一 个 日 志 片段 。 因 为 在 日 志 片 段 
被 关闭 之 前 消息 是 不 会 过 期 的 ， 所 以 如 果 1og， retention， 被 设 为 604 
800 000 〈 也 就 是 1 周 ) ， 那 么 日 志 片 段 最 多 需要 17 天 才 会 过 期 。 


这 是 因为 关闭 日 志 片 段 需要 10 天 的 时 间 ， 而 根据 配置 的 过 期 时 间 ， 还 需要 
再 保留 7 天 时 间 (要 等 到 日 志 片 段 里 的 最 后 一 个 消息 过 期 才能 被 删除 。 


gb 


A 使 用 时 间 惟 获取 偏 移 量 


日 志 片 段 的 大 小 会 影响 使 用 时 间 崔 获取 偏 移 量 。 在 使 用 时 间 戳 获取 日 志 
偏 移 量 时 ， Kafka 会 检查 分 区 里 最 后 修改 时 间 大 于 指定 时 间 戳 的 日 志 片 
段 (已 经 被 关闭 的 ，， 该 日 志 片 段 的 前 一 个 文件 的 最 后 修改 时 间 小 于 指 
定时 间 难 。 。 然 后 ，Kafka 返回 该 日 志 片 段 (地 就 是 文件 名 ) 开头 的 偏 移 
2 。 对 于 使 用 时 间 鹤 获取 偶 移 量 的 操作 来 说 ， 日 志 片 段 越 小 ， 结 采 越 准 


05. log.segment.ms 


一 个 可 以 控制 日 志 片 段 关 闭 时 间 的 参数 是 10g .segment .ms ， 它 指定 了 
0 日 志 片 段 会 被 关闭 。 就 像 1o0g ,retention.bytes 和 
1l0g .retention .ms 这 两 个 参数 一 样 ，1og.segment .bytes 和 
1og.retention.ms 这 两 个 参数 之 间 也 不 存在 互 不 问题 。 日 志 片 段 会 在 大 
小 或 时 间 达 到 上 限时 被 关闭 ， 就 看 哪个 条 件 先 得 到 满足 。 默 认 情 况 下 ， 
1og,.segment .ms 没有 设 定 值 ， 所 以 只 根据 大 小 来 关闭 日 志 乒 段 。 


A 基于 时 间 的 日 志 片 段 对 磁盘 性 能 的 影响 


在 使 用 基于 时 间 的 日 志 片 段 时 ， 要 着 重 考 虑 并 行 关 闭 多 个 日 志 片 段 对 磁 
盘 性 能 的 影响 。 如 果 多 个 分 区 的 日 志 片 段 永 远 不 能 达到 大 小 的 上 限 ， 就 
会 发 生 这 种 情况 ， 因 为 broker 在 局 动 之 后 就 开始 计算 日 志 片 段 的 过 期 时 


对 于 那些 数据 量 小 的 分 区 来 说 ， 日 志 片 段 的 关闭 操作 总 是 同时 发 


06. message.max.bytes 


broker 通过 设置 message .max.bytes 参数 来 限制 单个 消息 的 大 小 ， 默 认 
ee 如 果 生 产 者 尝试 发 送 的 消息 超过 这 个 大 小 ， 
不 仅 消 息 不 会 被 接收 ， 还 会 收 到 broker 返回 的 错误 信息 。 跟 其 他 与 字 节 相关 
的 配置 参数 一 样 ， 六 参 效 信 的 是 忆 缩 后 的 消息 大 小 ， 也 就 是 说 ， 只 要 压缩 后 
的 消息 小 于 message,max,bytes 指定 的 值 ， 消 息 的 实际 大 小 可 以 远大 于 
这 个 值 。 


是 


这 个 值 对 性 能 有 显著 的 影响 。 值 越 大 ， 那么 负责 处理 网 络 连 接 和 请 求 的 线程 
训 需 要 化 地 多 的 时 间 来 处 理 这 些 请 玉 它 己 还 会 增加 磁盘 写 入 块 的 大 小 ， 从 而 
引 亲 IO 吞吐 量 


\ 在 服务 端 和 客户 端 之 间 协 调 消息 大 小 的 配置 


费 者 客户 端 设置 的 fetch.message.max.bytes 必须 与 服务 器 端 设 
的 消息 大 小 进行 协调 。 如 果 这 个 值 比 message.max.bytes 小 ， 那 

么 消费 者 就 无 法 读 取 比较 大 的 消息 ， 导 致 出 现 消费 者 被 阻塞 的 情况 。 在 
为 集群 里 的 broker 配置 replica.fetch .max .bytes 参数 时 ， 也 遵循 
同样 的 原则 。 


2.4 ”硬件 的 选择 


为 Kafka 选择 合适 的 硬件 更 像 是 一 门 亏 术 。 Kafka 本 身 对 优 件 没有 特别 的 要 求 ， 

它 可 以 运行 在 任何 系统 上 。 不 过 ， 如 果 比 较 关 注 性 能 ， 那 么 就 需要 考虑 几 个 会 影 
响 整体 性 能 的 因素 :磁盘 否 吐 量 和 容量 、 内 存 、 网 络 和 CPU。 在 确定 了 性 能 关注 
点 之 后 ， 就 可 以 在 预算 范围 内 选择 最 优化 的 硬件 配置 。 


2.4.1 人 磁 副 吞吐 量 


生产 者 客户 端的 性 能 直接 受到 服务 器 端 磁盘 吞吐 量 的 影响 。 生产 者 生成 的 消 息 必 
须 被 提交 到 服务 器 保存 ， 大 多 数 客户 端 在 发 送 消息 之 后 会 一 直 等 待 ， 直 到 至 少 有 


世 
， K 


一 个 服务 器 确认 消息 


县 的 延迟 束 越 低 。 


在 考虑 硬盘 类 型 对 磁 副 否 吐 量 的 影响 时 ， 是 选择 传统 的 机 械 硬盘 (HDD) 还 是 固 
盘 (SSD) ， 我 们 可 以 很 容易 地 作出 决定 。 回 态 硬盘 的 查找 和 访问 速度 都 很 
。 机 械 硬 盘 更 便宜 ， 单 块 硬盘 容量 也 更 大 。 在 同一 个 服务 


态 便 
快 ， 


这 样 


接 存 储 技术 或 SATA，) 


提供 了 最 好 的 性 能 
器 上 使 用 多 个 机 械 硬盘 ， 可 以 设置 多 


经 成 功 提 交 为 止 。 也 就 是 说 ， 磁 盘 写 入 速度 越 快 ， 生 成 消 


个 数据 目 5 


员 尖 


， 或 者 把 它们 设置 成 磁盘 阵列 ， 


可 以 提升 机 械 醒 盘 的 性 能 。 其 他 方面 的 因素 ， 比 如 磁盘 特定 的 技术 《品行 


2.4.2 人”é 副 容量 


人 磁 副 容量 是 男 一 个 值得 讨论 的 话题 。 


数量 。 


如 采 服 务 器 每 天 会 收 到 1TB 消 轧 ， 并 且 保留 7 天， 那么 就 需要 7TB 的 存 


储 空 
缓冲 


”或 者 磁盘 控制 器 的 质量 ， 都 会 影响 香 吐 量 。 


需要 多 大 的 磁盘 容量 取决 于 需要 保留 的 消息 


间 ， 而 且 还 要 为 其 他 文件 提供 至 少 10% 的 额外 空间 。 除 此 之 外 ， 还 需要 提供 
区 ， 用 于 应 付 消息 流量 的 增长 和 波动 。 


在 决定 扩展 Kafka 集群 规模 时 ， 人 存储 容量 是 一 个 需要 考虑 的 因素 。 通 过 让 主题 拥 
人 拓 生 的 总 流量 可 以 下 的 入 到 得 不 全 村 而 且 如 果 单 个 broker 无 法 文 


有 多 


撑 全 


部 容量 ， 可 以 让 其 他 broker 提供 可 用 的 容量 “存储 容量 的 选择 同时 受到 集群 


复制 策略 的 影响 (将 在 第 6 章 讨论 更 多 的 细节 


2.4.3 内存 


除了 磁 副 性 能 外 ， 服 务 


性 能 


Na a 


器 端 可 用 的 内 存 容 量 是 影响 客户 端 性 能 的 主要 因素 。 磁 表 


影响 生产 者 ， 而 内 存 影 响 消费 者 。 消 费 者 一 般 从 分 区 尾部 读 取消 息 ， 如 果 有 


生产 者 存在 ， 号 紧 跟 在 生产 者 后 面 。 
系统 的 页 面 缓 存 里 ， 这 比 从 磁盘 上 重新 读 取 要 快 得 多 


Kafka 的 JVM 不 需要 太 大 的 内 存 ， 剩 余 的 系统 内 存 可 以 用 作 页 面 缓存 ， 和 


放 在 


运行 
者 用 
的 应 


在 这 种 情况 下 ， 滑 费 痢 读 取 的 消息 会 直接 存 


来 缓存 正在 使 用 中 的 日 志 片 段 。 


这 也 就 是 为 什么 不 建议 把 Kafka 同 其 他 重 


者 的 


用 程序 部 署 在 一 起 的 原因 ， 它 人 
性 能 。 


2.4.4 ”网络 
网 络 吞 吐 量 决定 了 Kafka 能 够 处 理 自 


扩展 规模 的 主要 


衡 ， 


1MB 数据 ， 但 


(在 


从 而 让 情况 变 得 更 加 复杂 。 对 了 


] 需 要 共享 页 面 缓 存 ， 最 终 会 降低 Kafka 消费 


最 大 数据 流量 。 它 和 磁盘 存储 是 制约 Kafka 


因素 。Kafka 支持 多 个 消费 者 ， 造 成 流入 和 流出 的 网 络 流量 不 平 


给 定 的 主题 ， 一 个 生产 者 可 能 每 秒 钟 写 入 


可 能 同时 有 多 个 消费 者 瓜分 网 络 流量 。 其 他 的 操作 ， 如 集群 复制 


第 6 章 介 绍 ) 和 镜像 (在 第 8 章 介绍 ) 也 会 占用 网 络 流量 。 如 果 网 络 接口 出 
现 鲍 和 ， 那 么 集群 的 复制 出 现 延 时 就 在 所 难免 从 而 让 集群 不 堪 一 击 。 


2.4.5 CPU 


与 磁盘 和 内 存 相 比 ，Kafka 对 计算 处 理 能 力 的 要 求 相对 较 低 ， 不 过 它 在 一 定 程 度 
上 还 是 会 影响 整体 的 性 能 。 客 户 端 为 了 优化 网 络 和 磁盘 空间 ， 会 对 消息 进行 压 
缩 。 服务器 需要 对 消息 进行 批 量 解压 ， 设 置 偏 移 量 ， 然 后 重新 进行 批量 压缩 ， 再 
保存 到 磁盘 上 。 这 就 是 Kafka 对 计算 处 理 能 力 有 所 要 求 的 地 方 。 不 过 不 管 怎样 
这 都 不 应 该 成 为 选择 硬件 的 主要 考虑 因素 。 


2.5 ”云端 的 Kafka 


Kafka 一 般 被 安装 在 云端 ， 比 如 亚马逊 网 络 服务 (Amazon Web Services， 

AWS) 。AWS 提供 了 很 多 不 同 配置 的 实例 ， 我 们 要 根据 Kafka 的 性 能 优先 级 来 
香 的 实例 。 可 以 先 从 要 保留 数据 的 大 小 开始 考虑 ， 然 后 考虑 生产 者 方面 的 
性 能 。 如 果 要 求 低 延迟 ， 那 么 就 需要 专门 为 VO 优化 过 的 使 用 固态 硬盘 的 实例 ， 
否则 使 用 配备 了 临时 存储 的 实例 就 可 以 了 。 选 好 存储 类 型 之 后 ， 再 选择 CPU 
和 内 存 就 容易 得 多 。 


实际 上 ， 如 果 使 用 AWS， 一 般 会 选择 m4 实例 或 r3 实例 。m4 实例 允许 较 长 时 间 
地 保留 数据 ， 不 过 磁盘 吞吐 量 会 小 一 些 ， 因 为 它 使 用 的 是 弹性 块 存储 。r3 实例 使 
用 固态 硬盘 ， 具 有 较 高 的 重 吐 量 ， 但 保留 的 数据 量 会 有 所 限制 。 如 有 果 想 两 者 兼 
顾 ， 那 么 需要 升级 成 这 实例 或 d2 实例 ， 不 过 它们 的 成 本 要 高 得 多 。 


2.6 ”Kafka 集 群 


单个 Kafka 服务 器 足以 满足 本 地 开发 或 POC 要 求 ， 不 过 集群 也 有 它 的 强大 之 处 。 
使 用 集群 最 大 的 好 处 是 可 以 跨 服 务 器 进行 负载 均衡 ， 再 则 就 是 可 以 使 用 复制 功能 

来 避免 因 单 点 故障 造成 的 数据 丢失 。 在 维护 Kafka 或 底层 系统 时 ， 使 用 集群 可 以 
确保 为 客户 端 提 供 高 可 用 性 。 本 节 只 是 介绍 如 何 配置 Kafka 集群 ， 第 6 章 将 介绍 
更 多 关于 数据 复制 的 内 容 。 
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图 2-2: 一 个 简单 的 Kafka 集群 
2.6.1 需要 多 少 个 broker 


一 个 Kafka 集群 需要 多 少 个 broker 取决 于 以 下 几 个 因素 。 首 先 ， 
间 来 保留 数据 ， 以 及 单个 broker 有 多 少 
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Ne we。 ee。 ee。 ep ee 0 


AS 


需要 多 少 人 磁 副 空 


入 


男 10TB 


的 数据 ， 每 个 broker 可 以 存储 2TB， 那 么 至 少 需 要 5 个 broker。 如 果 启 用 了 数据 


复制 ， 那 么 至 少 还 需要 一 倍 的 空间 ， 不 过 这 要 取决 了 


配置 的 复制 系数 


是 多 少 (将 


在 第 6 章 介 绍 ) 。 也 就 是 说 ， 如 果 启 用 了 数据 复制 ， 那 么 这 个 集群 至 少 需要 10 


个 broker 。 


第 二 个 要 考虑 的 因素 是 集群 处 理 请 求 的 能 力 。 这 通 和 前 与 网 络 接口 处 理 客户 端 流量 
的 能 力 有 关 ， 特 别 是 当 有 多 个 消费 者 存在 或 者 在 数据 保留 期 间 流 


发 生 波动 ( 比 


如 高 峰 时 段 的 流量 爆发 ) 时 。 如 果 单 个 broker 的 网 络 接口 在 高 峰 时 段 可 以 达到 
80% 的 使 用 量 ， 并 且 有 两 个 消费 者 ， 那 么 消费 者 就 无 法 保持 峰值 ， 除 非 有 两 个 


broker。 如 果 集 群 启用 了 复制 功能 ， 


则 要 把 这 个 额外 的 消费 者 考虑 在 内 。 因 位 副 


吞吐 量 低 和 系统 内 存 不 足 造 成 的 性 能 问题 ， 也 可 以 通过 扩展 多 个 broker 来 解决 。 


2.6.2 ”broker 配 置 


要 把 一 broker 加 入 到 集群 里 ， 只 需要 修改 两 个 配置 参数 。 首 先 ， 所 有 broker 都 
必须 配置 相同 的 zookeeper ,connect ， 该 参数 指定 了 用 于 保存 元 数据 的 

。 群 组 和 路 径 。 其 次 ， 每 个 broker 都 必须 为 broker . id 参数 设置 唯 

的 值 。 如 果 两 个 broker 使 用 相同 的 Eroker id ， 那 么 第 二 个 broker 就 无 法 启 

动 。 在 运行 集群 时 ， 还 可 以 配置 其 他 一 些 参数 ， 特 另 | 是 那些 用 于 控制 数据 复制 的 

参数 ， 这 些 将 在 后 续 的 章节 介绍 


2.6.3 ”操作 系统 调 优 


大 部 分 Linux 发 行 版 默认 的 内 核 调 优 参 数 配 置 已 经 能 够 满足 大 多 数 应 用 ' 的 运 
行 需 求 ， 不 过 还 是 可 以 通过 调整 一 些 参 数 来 进一步 提升 Kafka 的 性 能 。 这 些 参数 
主要 与 虚拟 内 存 、 网 络 子 系统 和 用 来 存储 日 志 片 段 的 磁盘 挂 载 点 有 关 。 这 上 些 参数 
a Ln .conf 文件 里 ， 不 过 在 对 内 核 参 数 进行 调整 时 ， 最 好 参考 操 


01. 虚拟 内 存 


一 般 来 说 ，Linux 的 虚拟 内 存 会 根据 系统 的 工作 负荷 进行 目 动 调整 。 我 们 可 
0 分 区 的 处 理 方式 和 内 存 脏 页 进行 调整 ， 从 而 让 Kafka 更 好 地 处 理工 
负载 。 


对 于 大 多 数 依 赖 吞 吐 量 的 应 用 程序 来 说 ， 要 尽量 避免 内 存 交 换 。 内 存 页 和 磁 
盘 之 间 的 交换 对 Kafka 各 方面 的 性 能 都 有 重大 影响 。Kafka 大 量 地 使 用 系统 
页 面 缓存 ， 如 果 虚 拟 内 存 被 交换 到 磁盘 ， 说 明 已 经 没有 多 余 内 存 可 以 分 配给 
页 面 缓 存 了 。 


一 种 避免 内 存 交 换 的 方法 是 不 设置 任何 交换 分 区 。 内 存 交 换 不 是 必需 的 ， 不 
过 它 确 实 能 够 在 系统 发 生 灾难 性 错误 时 提供 一 些 帮 助 。 进 行内 存 交 换 可 以 防 
止 操作 系统 由 于 内 存 不 足 而 突然 终止 进程 。 基 于 上 述 原 因 ， 建 议 把 

vm. swappiness 参数 的 值 设 置 得 小 一 点 ， 比 如 1。 该 参数 指明 了 虚拟 机 的 
子 系统 将 如 何 使 用 交换 分 区 ， 而 不 是 只 把 内 存 页 从 页 面 缓存 里 移 除 。 要 优先 
考虑 减 小 页 面 缓存 ， 而 不 是 进行 内 存 交 换 。 


和 为 什么 不 把 vm. swappiness 设 为 零 


先前 ， 人 们 建议 尽量 把 vm. swapiness 设 为 0， 它 意味 着 “除非 发 生 内 

存 汶 出 ， 否 则 不 要 进行 内 存 交 换 ”。 直 到 Linux 内 核 3.5-rcl 版 本 发 布 ， 

这 个 值 的 意义 才 发 生 了 变化 。 这 个 变化 被 移植 到 其 他 的 发 行 版 上 ， 包 括 
Red Hat 企业 版 内 核 2.6.32-303。 在 发 生变 化 之 后 ，0 意味 着 “在 任何 情况 
下 都 不 要 发 生 交换 ”。 所 以 现在 建议 把 这 个 值 设 为 1。 


脏 页 会 被 冲刷 到 磁盘 上 ， 调 整 内 核对 脏 页 的 处 理 方式 可 以 让 我 们 从 中 获 益 。 
Kafka 依赖 VO 性 能 为 生产 者 提供 快速 的 啊 应 。 这 就 是 为 什么 日 志 卢 段 一 般 


要 保存 在 快速 磁盘 上 ， 不 管 是 单个 快速 磁盘 (如 SSD) 还 是 具有 NVRAM 组 
存 的 三 副 子 系统 (如 RAID) 。 这 样 一 来 ， 在 后 台 刷 新 进程 将 脏 页 写 入 磁盘 
之 前 ， 可 以 减少 脏 页 的 数量 ， 这 个 可 以 通过 将 

vm.dirty_ background_ ratio 设 为 小 于 10 的 值 来 实现 。 该 值 指 的 是 系 
统 内 存 的 百分比 ， 大 部 分 情况 下 设 为 5 就 可 以 了 。 它 不 应 该 被 设 为 0， 因 为 
0 频繁 地 刷新 页 面 ， 从 而 降低 内 核 为 底层 设备 的 磁盘 写 入 提供 
绥 冲 的 能 力 。 


通过 设置 vm .dirty_ratio 参数 可 以 增加 被 内 核 进程 剧 新 到 磁 一 之 前 的 脏 
页 数量 ， 可 以 将 它 设 为 大 于 20 的 值 《这 也 是 系统 内 存 的 百分比 ) 。 这 个 值 
可 设置 的 范围 很 广 ，60~80 是 个 比较 合理 的 区 间 。 全 各 调 王 必 个 参 类 全 带 来 
一 些 风 险 ， 包 括 未 刷新 磁盘 操作 的 数量 和 同步 刷新 引起 的 长 时 间 IO 等 待 。 
如 果 该 参数 设置 了 较 高 的 值 ， 建 议 启用 Kafka 的 复制 功能 ， 避 免 因 系统 崩 满 
造成 数据 丢失 。 


为 了 给 这 些 参 数 设 置 合 适 的 值 ， 最 好 是 在 Kafka 集群 运行 期 间 检查 脏 页 的 数 
| 重 是 在 和 生存 环境 还 是 模拟 环境 。 可 以 在 /procvmstat 文件 里 查看 当前 


# cat /proc/vmstat | egrep "dirtyl|writeback" 
nr_dirty 3875 

nr_writeback 29 

nr_writeback_temp 0 

# 


.磁盘 


除了 选择 合适 的 磁盘 硬件 设备 和 使 用 RAID 外 ， 文 件 系统 是 影响 性 能 的 另 一 
个 重要 因素 。 有 很 多 种 文件 系统 可 供 选 择 ， 不 过 对 于 本 地 文件 系统 来 说 ， 

EXT4 (第 四 代 可 扩展 文件 系统 ) 和 XFS 最 为 常见 。 近 来 ，XFS 成 为 很 多 

Linux 发 行 版 默认 的 文件 系统 ， 因 为 它 只 需要 做 少量 调 优 就 可 以 承担 大 部 分 
的 工作 负荷 ， 比 EXT4 具有 更 好 的 表现 。 EXT4 也 可 以 做 得 很 好 ， 但 需要 做 
更 多 的 调 优 ， 存 在 较 大 的 风险 。 其 中 就 包括 设置 更 长 的 提交 间隔 (默认 是 
5) ， 以 便 降 低 刷 新 的 频率 。EXT4 还 引入 了 块 分 配 延 迟 ， 一 旦 系统 月 并， 更 
容易 造成 数据 丢失 和 文件 系统 毁坏 。XFS 也 使 用 了 分 配 延 迟 算法 ， 不 过 比 

EXT4 的 要 安全 些 。XFS 为 Kafka 提供 了 更 好 的 性 能 ， 除 了 由 文件 系统 提供 
的 自动 调 优 之 外 ， 无 需 额外 的 调 优 。 批 量 磁盘 写 入 具有 更 高 的 效率 ， 可 以 提 
升 整体 的 WO 吞吐 量 。 


不 管 使 用 哪 一 种 文件 系统 来 存储 日 志 片 段 ， 最 好 要 对 挂 载 点 的 noatime 参 
数 进 行 合理 的 设置 。 文 件 元 数据 包含 3 个 时 间 戳 : 创建 时 间 (ctime) 、 最 后 
修改 时 间 (mtime) 以 及 最 后 访问 时 间 (atime) 。 默 认 情况 下 ， 每 次 文件 被 
读 取 后 都 会 更 新 atime， 这 会 导致 大 量 的 磁盘 写 操 作 ， 而 且 atime 属性 的 用 处 


< 


不 大 ， 除 非 某 些 应 用 程序 想 要 知道 菜 个 文件 在 最 近 一 次 修改 后 有 没有 被 访问 


过 (这 种 


. 网 络 


默认 情况 下 ， 
应 用 程序 来 说 ， 
的 支持 。 实 际 上 ， 


青 况 可 以 使 用 realtime ) 


系统 内 核 没 有 针对 快速 的 大 流量 
一 般 需 要 对 Linux 系统 的 网 络 栈 进行 调 优 ， 


。Kafka 用 不 到 该 属性 ， 
把 它 禁 用 掉 。 为 挂 载 点 设置 noatime 参数 可 以 防止 更 新 atime， 但 


ctime 和 mtime 。 


络 应 用 程序 的 网 络 百 
存 大 小 作出 调整 ， 


net .Core.rmem_max ， 
最 大 值 并 不 总 
情况 下 才 会 达 


并 本 


置 是 一 样 的 。 
这 样 可 以 显著 提升 
应 的 参数 分 别 是 net.core.wmem_default 和 
net .core.rmem default, 


调整 Kafka 的 网 络 配 置 与 调整 其 他 大 部 分 Web 服务 器 和 网 


量 网 络 传输 进行 优化 ， 所 以 对 于 
以 实现 对 大 流量 


。 首先 可 以 对 分 


。 要 注意 ， 


所 以 完全 可 以 


不 会 影响 


配给 socket 读 志 写 绥 促 区 XxX 的 内 
网 络 的 传输 性 能 。socket 读 写 缓冲 区 对 


合理 的 值 是 131 072 (也 就 是 128KB) 。 读 
写 缓冲 区 最 大 值 对 应 的 参数 分 别 是 net.core.wmem_max 和 

合理 的 值 是 2 097 152 (也 束 古 2MB) 
\ 味 着 每 个 socket 一 定 要 有 这 么 大 的 缓冲 空 


只 是 说 在 必要 的 


除了 设置 socket 外 ， 还 需要 设置 TCP socket 的 读 写 缓冲 区 ， 它 们 的 参数 分 别 


整数 组 成 ， 它 们 使 用 空格 分 隔 ， 


不 能 大 于 net.core.wmem_max 和 net.core.rmem_max 指定 的 大 小 。 例 


如 ，“4096 65536 2048000” 表 示 最 小 值 是 4KB、 0 64KB、 最 大 值 是 
2MB。 根 据 Kafka 服务 器 接收 流 晤 
值 ， 为 网 络 连 接 提供 更 大 的 缓冲 空 1 


些 有 用 的 网 络 参数 。 例 如 ， 把 


还 有 其 他 一 


是 net.ipv4.tcp_wmem 和 net.ipv4.tcp_rmem。 


分 别 表示 最 小 值 、 默 认 值 和 最 大 值 。 最 大 值 


这 些 参数 的 值 由 3 个 


量 内 实际 情况 ， 


net .ipv4.tcp_window_scaling 设 为 1， 


需要 设置 更 高 的 最 大 


启用 1 i 可 以 
提升 客户 端 传输 数据 的 效率 ， 传 输 的 数据 可 以 在 服务 


到 


net.ipv4.tcp_max_syn_backlog 设 为 比 默认 值 1024 的 信 可 以 
接受 更 多 的 并 发 连接 。 把 net .core.netdev_max_backlog 设 为 比 默认 


值 1000 更 大 的 值 ， 有 助 了 


情况 下 ， 人 允许 更 多 的 数据 包 排 队 等 


2.7 生产 环境 的 注意 事项 


应 对 网 络 流量 E 


竺 内 核 处 理 。 


当 你 准备 把 Kafka 从 测试 环境 部 署 到 生产 环境 时 ， 需 要 注意 
更 可 靠 的 消息 服务 。 


2.7.1 ”垃圾 回收 器 选项 


量 的 炮 发 ， 特 别 是 在 使 用 千 光 网络 的 


些 事 项 ， 以 便 创建 


为 应 用 程序 调整 Java 垃圾 回收 参数 就 像 是 一 门 艺术 ， 我 们 需要 知道 应 用 程序 是 如 
何 使 用 内 存 的 ， 还 需要 大 量 的 观察 和 试 错 。 符 运 的 是 ，Java 7 为 我 们 带 来 了 G1 
垃圾 回收 器 ， 让 这 种 状况 有 所 改观 。 在 应 用 程序 的 整个 生命 周期 ，G1 会 自动 根 
据 工 作 负 载 情 况 进 行 自 我 调节 ， 而 且 它 的 停顿 时 间 是 恒定 的 。 它 可 以 轻松 地 人 处理 
Se 把 堆 内 存 分 为 若干 小 块 的 区 域 ， 每 次 停顿 时 并 不 会 对 整个 堆 空 间 
井 行 


情况 下 ，G1 只 需要 很 少 的 配置 就 能 完成 这 些 工 作 。 以 下 是 G1 的 两 个 调整 参 


MaxGCPauseMillis: 


该 参数 指定 每 次 垃圾 回收 默认 的 停顿 时 间 。 该 值 不 是 固定 的 ，G1 可 以 根据 
需要 使 用 更 长 的 时 间 。 它 的 默认 值 是 200ms 。 J G1 会 决定 垃圾 回收 的 频 
0 需要 回收 多 少 个 区 域 ， 这 样 算 下 来 ， 每 一 轮 垃圾 回收 大 概 需 要 
200ms 的 时 间 。 


InitiatingHeapOccupancyPercent: 


该 参数 指定 了 在 G1 启动 新 一 轮 垃圾 回收 之 前 可 以 使 用 的 堆 内 存 百 分 比 ， 默 
认 值 是 45。 也 就 是 说 ， 在 堆 内 存 的 使 用 率 达 到 45% 之 前 ，G1 不 会 启动 垃圾 回 
收 。 这 个 百分比 包括 新 生 代 和 老年 代 的 内 存 。 


Kafka 对 堆 内 存 的 使 用 率 非 常 高 ， 容 易 产生 垃圾 对 象 ， 所 以 可 以 把 这 些 值 设 得 小 
一 些 。 如 果 一 台 服 务 器 有 64GB 内 存 ， 并 且 使 用 5GB 堆 内 存 来 运行 Kafka， 那 么 
可 以 参考 以 下 的 配置 : MaxGCPauseMil1is 可 以 设 为 20ms; 
InitiatingHeap0ccupancyPercent 可 以 设 为 35， 这 样 可 以 让 垃圾 回收 比 
默认 的 要 早 一 些 启动 。 


Kafka 的 启动 脚本 并 没有 启用 G1 回收 右 ， 而 是 使 用 了 Parallel New 和 CMS ( 
Concurrent Mark-Sweep， 并 发 标记 和 清除 ) 垃圾 回收 器 。 不 过 它 可 以 通过 环境 变 
量 来 修改 。 本 章 前 面 的 内 容 使 用 start 命令 来 修改 它 : 


# _ export JAVA_ HOME=/usr/java/jdk1i.8.0_51 

# export KAFKA_JVM_ PERFORMANCE_OPTS="-server -XX:+UseG1GC 
-XX:MaxGCPauseMillis=20 -XX:InitiatingHeapOccupancyPercent=35 
-XX:+DisableExplicitGC -Djava.awt.headless=true" 

# /usr/local/kafka/bin/kafka-server-start.sh -daemon 


/usr/local/kafka/config/server.properties 
# 


2.7.2 ”数据 中 心 布局 


在 开发 阶段 ， 人 们 并 不 会 太 关 心 Kafka 服务 器 在 数据 中 心 所 处 的 物理 位 置 ， 因 为 
即使 集群 在 短 时 间 内 出 现 局 部 或 完全 不 可 用 ， 也 不 会 造成 太 大 影响 。 但 是 ， 在 生 
产 环境 ， 服 务 不 可 用 意味 着 金钱 的 损失 ， 具 体 表现 为 无 法 为 用 户 提供 服务 或 者 不 
知道 用 户 正在 做 什么 。 这 个 时 候 ， 使 用 Kafka 集群 的 复制 功能 就 变 得 尤为 重要 
(请 参考 第 6 章 ) ， 而 服务 器 在 数据 中 心 所 处 的 物理 位 置 也 变 得 重要 起 来 。 如 果 
在 部 署 Kafka 之 前 没有 考虑 好 这 个 问题 ， 那 么 在 后 续 的 维护 过 程 中 ， 移 动 服务 器 
需要 耗费 更 高 的 成 本 。 


在 为 broker 增加 新 的 分 区 时 ，broker 并 无 法 获知 机 架 的 信息 。 也 就 是 说 ， 两 个 

broker 有 可 能 是 在 同一 个 机 架 上 ， 或 者 在 同一 个 可 用 区 域 里 《如果 运行 在 像 AWS 
这 样 的 的 云 服务 上 ) ， 所 以 ， 在 为 分 区 添加 副本 的 时 候 ， 这 些 副本 很 可 能 被 分 配 
给 同一 个 机 架 上 的 broker， 它 们 使 用 相同 的 电源 和 网 络 连 接 。 如 果 该 机 架 出 了 问 
题 ， 这 些 分 区 就 会 离线 ， 客 户 剖 束 无 法 访问 到 它们 。 更 糟糕 的 是 ， 如 果 发 生 不 完 
整 的 主 节 点 选举 ， 那 么 在 恢复 时 就 有 可 能 丢失 数据 (第 6 章 将 介绍 更 多 细节 ) 。 


所 以 ， 最 好 把 集群 的 broker 安装 在 不 同 的 机 架 上 ， 至 少 不 要 让 它们 共享 可 能 出 现 

单 点 故障 的 基础 设施 ， 比 如 电源 和 网 络 。 也 就 是 说 ， 部 署 服务 器 需要 至 少 两 个 电 

源 连接 (两 个 不 同 的 回路 ) 和 两 个 网 络 交换 器 (保证 可 以 进行 无 颖 的 故障 切 

换 ) 。 除 了 这 些 以 外 ， 最 好 还 要 把 broker 安放 在 不 同 的 机 架 上 。 因 为 随 着 时 间 的 

机 架 也 需要 进行 维护 ， 而 这 会 导致 机 器 离线 (比如 移动 机 器 或 者 重新 连接 
小 oO 


[ou 


2.7.3 ”共享 Zookeeper 


Kafka 使 用 Zookeeper 来 保存 broker、 主 题 和 分 区 的 元 数据 信息 。 对 于 一 个 包含 多 
个 节点 的 Zookeeper 群 组 来 说 ，Kafka 集群 的 这 些 流量 并 不 算 多 ， 那 些 写 操作 只 
是 用 于 构造 消费 者 群 组 或 集群 本 身 。 实 际 上 ， 在 很 多 部 署 环境 里 ， 会 让 多 个 
Kafka 集群 共享 一 个 Zookeeper 群 组 (每 个 集群 使 用 一 个 chroot 路 径 ) 。 


和 Kafka 消费 者 和 Zookeeper 


在 Kafka 0.9.0.0 版 本 之 前 ， 除 了 broker 之 外 ， 消 费 者 也 会 使 用 Zookeeper 来 
保存 一 些 信息 ， 比 如 消费 者 群 组 的 信息 、 主 题 信 息 、 消 费 分 区 的 偏 移 量 (在 
消费 者 群 组 里 发 生 失 效 转 移 时 会 用 到 ) 。 到 了 0.9.0.0 版本，Kafka 引入 了 一 
个 新 的 消费 者 接口 ， 允 许 broker 直接 维护 这 些 信息 。 这 个 新 的 消费 者 接口 将 
在 第 4 章 介绍 。 


不 过 ， 消 费 者 和 Zookeeper 之 间 还 是 有 一 个 值得 注意 的 地 方 ， 消 费 者 可 以 选择 将 
偏 移 量 提交 到 Zookeeper 或 Kafka， 还 可 以 选择 提交 偏 移 量 的 时 间 间 隔 。 如 果 消 
费 者 将 偏 移 量 提交 到 Zookeeper， 那 么 在 每 个 提交 时 间 点 上 ， 消 费 者 将 会 为 每 一 

个 消费 的 分 区 往 Zookeeper 写 入 一 次 偏 移 量 。 合 理 的 提交 间隔 是 1 分 钟 ， 因 为 这 
刚好 是 消费 者 群 组 的 某 个 消费 者 发 生 失 效 时 能 够 读 取 到 重复 消息 的 时 间 。 值 得 注 


ht 


意 的 是 ， 这 些 提交 对 于 Zookeeper 来 说 流量 不 算 小 ， 特 别 是 当 集 群星 有 多 个 消费 
者 的 时 候 。 如 果 Zookeeper 群 组 无 法 处 理 太 大 的 流量 ， 就 有 必要 使 用 长 一 点 的 提 
交 时 间 问 隔 。 不 过 不 管 怎样 ， 还 是 建议 使 用 最 新 版 本 的 Kafka， 让 消费 者 把 偏 移 
量 提交 到 Kafka 服务 右上， 消除 对 Zookeeper 的 依赖 。 


虽然 多 个 Kafka 集群 可 以 共享 一 个 Zookeeper 群 组 ， 但 如 果 有 可 能 的 话 ， 不 建议 
把 Zookeeper 共享 给 其 他 应 用 程序 。Kafka 对 Zookeeper 的 延迟 和 超时 比较 敏感 ， 

与 Zookeeper 群 组 之 间 的 一 个 通信 异常 就 可 能 导致 Kafka 服务 器 出 现 无 法 预测 的 
行为 。 i 上 broker 同时 离线 ， 如 果 它 们 与 Zookeeper 之 间断 开 连 

接 ， 导致 分 区 离线 。 这 也 会 给 集群 控制 器 带 来 压力 ， 在 服务 器 离线 一 段 时 间 
2 当 控制 器 尝试 关闭 一 个 服务 器 时 ， 会 表现 出 一 些 细小 的 错误 。 其 他 的 应 用 
程序 因 重 度 使 用 或 进行 不 恰当 的 操作 给 Zookeeper 群 组 带 来 压力 ， 所 以 最 好 让 它 
们 使 用 自己 的 Zookeeper 群 组 。 


2.8 ”总结 


AN 一 器 


在 这 一 章 ， 我 们 学 习 了 如 何 运 行 Kafka， 同 时 也 讨论 了 如 何 为 Kafka 选择 合适 的 
硬件 ， 以 及 在 生产 环境 中 使 用 Kafka 需要 注意 的 事项 。 有 了 Kafka 集群 之 后 ， 接 
下 来 要 介绍 基本 的 客户 端 应 用 程序 。 后 面 两 章 将 介绍 如 何 创建 客户 端 ， 并 用 它们 
向 Kafka 生产 消息 (第 3 章 ) 以 及 从 Kafka 读 取 这 些 消息 (第 4 章 ) 。 


回 Kafka 写 
入 数据 


不 管 是 把 Kafka 作为 消息 队列 、 消 息 总 线 还 是 数据 存储 平台 来 使 用 ， 总 是 需要 
一 个 可 以 往 Kafka 写 入 数据 的 生产 省 和 一 个 可 以 从 Kafka 读 取 数据 的 消费 者 ， 
者 一 个 兼 具 两 种 角色 的 应 用 程序 。 


例如 ， 在 一 个 信用 卡 事务 处 理 系 统 里 ， 有 一 个 客户 端 应 用 程序 ， 它 可 能 是 一 个 在 
线 商 店 ， 每 当 有 支付 行为 发 生 时 ， 它 负责 把 事务 发 送 到 Kafka 上 。 男 一 个 应 用 程 
序 根 据 规则 引擎 检查 这 个 事务 ， 决 定 是 批准 还 是 拒绝 。 批准 或 拒绝 的 响应 消息 被 
写 回 Kafka， 然 后 发 送 给 发 起 事务 的 在 线 商 店 。 第 三 个 应 用 程序 从 Kafka 上 读 取 
事务 和 审核 状态 ， 把 它们 保存 到 数据 库 ， 随后 分 析 抽 可 以 对 这 电 吉 果 进行 分 析 ， 
或 许 还 能 借 此 改进 规则 引擎 。 


开发 者 们 可 以 使 用 Kafka 内 置 的 客户 端 API 开发 Kafka 应 用 程序 。 


在 这 一 章 ， 我 们 将 从 Kafka 生产 者 的 设计 和 组 件 讲 起 ， 学 习 如 何 使 用 Kafka 生产 
者 。 我 们 将 演示 如 何 创 建 KafkaProducer 和 ProducerRecords 对 象 、 如 何 将 记录 发 


有 
或 


送 给 Kafka， 以 及 如 何 处 理 从 Kafka 返回 的 错误 ， 然 后 介绍 用 于 控制 生产 者 行为 
的 重要 配置 选项 ， 最 后 深入 探讨 如 何 使 用 不 同 的 分 } 区 方法 和 序列 化 器 以 及 如 何 
自 定 义 序列 化 器 和 分 区 器 。 


在 第 4 章 ， 我 们 将 会 介绍 Kafka 的 消费 者 客户 端 ， 以 及 如 何 从 Kafka 读 取 消息 。 


和 第 三 方 客户 端 


除了 内 置 的 客户 端 外 ，Kafka 还 提供 了 二 进 制 连接 协议 ， 也 就 是 说 ， 我 们 直 
搂 向 Kafka 网 络 端 口 发 送 适 当 的 字 节 序列 ， 就 可 以 实现 从 Kafka 读 取 消息 或 
往 Kafka 写 入 消息 。 还 有 很 多 用 其 他 语言 实现 的 Kafka 客户 端 ， 比 如 C++、 

Python、Go 语言 等 ， 它们 都 实现 了 Kafka 的 连接 协议 ， 使 得 Kafka 不 仅仅 局 
限于 在 Java 里 使 用 。 这 些 客 户 端 不 属于 Kafka 项 目 ， 不 过 Kafka 项 目 wiki 

上 提供 了 一 个 清单 ， 列 出 了 所 有 可 用 的 客户 端 。 连 接 协 议和 第 三 方 客户 端 超 
出 了 本 章 的 讨论 范围 。 


3.1 生产 者 概览 


一 个 应 用 程序 在 很 多 情况 下 需 要 往 Kafka 写 入 消息 ， 记 录用 户 的 活动 (用 于 审计 
和 分 析 ) 、 记 录 度 量 指标 、 保 存 日 志 消 息 、 记 录 币 人 
序 进行 异步 通信 、 缓冲 即将 写 太 到 数据 座 的 数据 


多 样 的 使 用 场景 意味 着 多 样 的 需求 : 是 否 每 个 消息 都 很 重要 ? 是 否 人 允许 丢失 一 小 \ 
部 分 消息 ? 偶尔 出 现 重 复 消 息 是 否 可 以 接受 ? 是 否 有 严格 的 延迟 和 吞吐 量 要 求 ? 


0 A 可 以 接 
受 的 延迟 最 入 50 少 钟 可 以 处 理 一 自 万 
个 消息 。 


保存 网 站 的 点 击 信 息 是 男 一 种 使 用 场景 。 在 这 个 场景 里 ， 人 允许 丢失 少量 的 消息 或 
出 现 少量 的 消息 重复 ， 延 迟 可 以 高 一 些 ，4 上 要 不 影响 用 户 体 克基 和 换 句 话说 ， 
只 要 用 户 点 击 链接 后 可 以 马上 加 载 页 面 ， 那么 我 们 并 不 介 意 消 息 要 在 几 秒 钟 之 后 
才能 到 达 Kafka 服务 器 。 吞吐 量 则 取决 于 网 站 用 户 使 用 网 站 的 须 度 。 


不 同 的 使 用 场景 对 生产 者 API 的 使 用 和 配置 会 有 直接 的 影响 。 


尽管 生产 者 API 使 用 起 来 很 简单 ， 但 消息 的 发 送 过 程 还 是 有 点 复杂 的 。 图 3-1 展 
示 了 癌 Kafka 发 送 消 息 的 主要 步骤 。 


ProducerRecord 
Topic 
[Partition] 


[Key] 
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如 有 果 成 功 ， 如 采 不 能 重 试 ， 
返回 元 数据 抛 出 异常 


批 次 0 批 次 0 
批 次 1 批 次 1 


批 次 2 批 次 2 
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Kafka Broker 


图 3-1: Kafka 生产 者 组 件 图 


我 们 从 创建 一 个 ProducerRecord 对 象 开 始 ，ProducerRecord 对 象 需要 包含 目标 主 
题 和 要 发 送 的 内 容 。 我 们 还 可 以 指定 键 或 分 区 。 在 发 送 ProducerRecord 对 象 时 ， 
生产 者 要 先 把 键 和 值 对 象 序列 化 成 字 节 数组 ， 这 样 它们 才能 够 在 网 络 上 传输 。 


接 下 来 ， 数 据 被 传 给 分 区 器 。 如 果 之 前 在 ProducerRecord 对 和 象 里 指定 了 分 区 ， 那 
么 分 区 器 就 不 会 再 做 任何 事情 ， 直 接 把 指定 的 分 区 返回 。 如 果 没 有 指定 分 区 ， 那 
么 分 区 器 会 根据 ProducerRecord 对 象 的 键 来 选择 一 个 分 区 。 选 好 分 区 以 后 ， 生 产 
者 就 知道 该 往 哪 个 主题 和 分 区 发 送 这 条 记录 了 。 紧 接着 ， 这 条 记录 被 添加 到 一 个 
记录 批 次 里 ， 这 个 批 次 里 的 所 有 消息 会 被 发 送 到 相同 的 主题 和 分 区 上 。 有 一 个 独 
立 的 线程 负责 把 这 些 记录 批 次 发 送 到 相应 的 broker 上 。 


服务 器 在 收 到 这 些 消息 时 会 返回 一 个 啊 应 。 如 果 消 息 成 功 写 入 Kafka， 就 返回 一 
个 RecordMetaData 对 象 ， 2 了 主题 和 分 区 信息 ， 以 及 记录 在 分 区 里 的 偏 移 
量 。 如 果 写 入 失败 ， 则 会 返回 一 个 错误 。 生产 者 在 收 到 错误 之 听 会 尝试 重新 发 送 
首 筷 ， 几 次 之 后 如 果 还 是 失败 ， 就 返回 错误 信息 。 


3.2 ”创建 Kafka 生 产 者 


要 往 Kafka 写 入 消息 ， 首 先 要 创建 一 个 生产 者 对 象 ， 并 设置 一 些 属性 。Kafka 生 
产 者 有 3 个 必 选 的 属性 。 


bootstrap. servers 


该 属性 指定 broker 的 地 址 清单 ， 地 址 的 格式 为 host :port 。 清 单 里 不 需要 
包含 所 有 的 broker 地 址 ， 生 产 者 会 从 给 定 的 broker 里 查找 到 其 他 broker 的 信息 。 
人 broker 的 信息 ， 一 旦 其 中 一 个 宕 机 ， 生 产 者 仍然 能 够 连 
这 1 集 


key .serializer 


broker 希望 接收 到 的 消息 的 键 和 值 都 是 字 市 数组 。 生 产 者 接口 允许 使 用 参数 
化 类 型 ， 因 此 可 以 把 Java 对 象 作 为 键 和 值 发送 给 broker。 这 样 的 代码 具有 民 好 的 
可 读 性 ， 不 过 生产 者 需要 知道 如 何 把 这 些 Java 对 象 转换 成 字 节 数组 
key .serializer 必须 被 设置 为 一 个 实现 了 
org.apache.kafka.common.serialization.Serializer 接口 的 类 ， 生 

产 者 会 使 用 这 个 类 把 键 对 象 序列 化 成 字 世 数组 。Kafka 客户 端 默认 提供 了 

ByteArraySerializer (这 个 只 做 很 少 的 事情 ) 、StringSerializer 和 
IntegerSerializer ， 因 此 ， 如 果 你 只 使 用 常见 的 几 种 Java 对 象 类 型 ， 那 么 
就 没 必要 实现 自己 的 序列 化 器 。 要 注意 ，key .serializer 是 必须 设置 的 ， 就 
算 你 打算 只 发 送 值 内 容 。 


value.serializer 


主 | 
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与 key.serializer 一 样 ，value.serializer 指 定 的 类 会 将 值 序列 
化 。 如 果 键 和 值 都 是 字符 串 ， 可 以 使 用 与 key .serializer 二 样 的 序列 化 器 
如 果 键 是 整数 类 型 而 值 是 字符 串 ， 那 么 需要 使 用 不 同 的 序列 化 器 


下 面 的 代码 片段 演示 了 如 何 创建 一 个 新 的 生产 者 ， 这 里 只 指定 了 必要 的 属性 ， 其 
他 使 用 默认 设置 。 


private Properties kafkaProps = new Properties(); @ 
kafkaProps.put("bootstrap.servers", "broker1:9092,broker2:9092"); 


kafkaProps.put("key.serializer", 
"org.apache.kafka.common.serialization.StringSerializer"); © 


kafkaProps.put("value.serializer", 
"org.apache.kafka.common.serialization.StringSerializer"); 


producer = new KafkaProducer<String, String>(kafkaProps); © 


@ 新 建 一 个 Properties 对 象 。 


@ 因为 我 们 打算 把 键 和 值 定义 成 字符 串 类 型 ， 所 以 使 用 内 置 的 


StringSerializer 。 


@ 在 这 里 我 们 创建 了 一 个 新 的 生产 者 对 象 ， 并 为 键 和 值 设置 了 恰当 的 类 型 ， 然 后 
把 Properties 对 象 传 给 它 。 


这 个 接口 很 简单 ， 通 过 配置 生产 者 的 不 同属 性 就 可 以 很 大 程度 地 控制 它 的 行为 。 
Kafka 的 文档 涵盖 了 所 有 的 配置 参数 ， 我 们 将 在 这 一 半 的 后 面部 分 介绍 其 中 几 个 
比较 重要 的 参数 。 


实例 化 生产 者 对 象 后 ， 接 下 来 束 可 以 开始 发 送 消 息 了 。 发 送 消息 主要 有 以 下 3 种 


式 。 
发 送 并 忘记 (fire-and-forget) 
我 们 把 消息 发 送 给 服务 器 ， 但 并 不 关心 它 是 否 正 常 到 达 。 大 多 数 情况 下 ， 消 
息 会 正常 到 达 ， 因 为 Kafka 是 高 可 用 的 ， 而 且 生产 者 会 目 动 尝试 重 发 。 不 过 ， 使 
用 这 种 方式 有 时 候 也 会 丢失 一 些 消息 。 
同步 发 送 


我 们 使 用 send( ) 方法 发 送 消息 ， 它 会 返回 一 个 Future 对 象 ， 调 用 
get() 方法 进行 等 待 ， 就 可 以 知道 消息 是 否 发 送 成 功 。 


异步 发 送 


我 们 调用 send( ) 方法 ， 并 指定 一 个 回调 画 数 ， 服 务 器 在 返回 响应 时 调用 该 
而 数 。 


在 下 面 的 几 个 例子 中 ， 我 们 会 介绍 如 何 使 用 上 述 几 种 方式 来 发 送 消 息 ， 以 及 如 何 
处 理 可 能 发 生 的 异常 情况 。 


本 章 的 所 有 例子 都 使 用 单线 程 ， 但 其 实生 产 者 是 可 以 使 用 多 线程 来 发 送 消息 的 。 
刚 开 始 的 时 候 可 以 使 用 单个 消费 者 和 单个 线程 。 如 有 果 需 要 更 高 的 吞吐 量 ， 可 以 在 
生产 者 数 量 不 变 的 前 提 下 增加 线程 数量 。 如 果 这 样 做 还 不 够 ， 可 以 增加 生产 者 数 


量 


3.3 “发送 消息 到 Kafka 
最 简单 的 消息 发 送 方式 如 下 所 示 。 


ProducerRecord<String，String> record = 
new ProducerRecord<>("CustomerCountry", "Precision Products", 


"France"); @ 


try { 
producer .send(record); © 
} catch (Exception e) { 
e.printstackTrace(); © 


} 


@ 生产 者 的 send( ) 方法 将 ProducerRecord 对 象 作为 参数 ， 所 以 我 们 要 先 创 

建 一 个 ProducerRecord 对 象 。ProducerRecord 有 多 个 构造 函数 ， 稍 后 我 

们 会 详细 讨论 。 这 里 使 用 其 中 一 个 构造 函数 ， 它 需要 目标 主题 的 名 字 种 要 发 送 的 

0 它们 都 是 字符 串 。 键 和 值 对 象 的 类 型 必须 与 序列 化 器 和 生产 者 对 象 
日 oO 


@ 我 们 使 用 生产 者 的 send( ) 方法 发 送 ProducerRecord 对 象 。 从 生产 者 的 架 
构图 里 可 以 看 到 ， 消息 先是 被 放 进 缓冲 区 ， 然 后 使 用 单独 的 线程 发 送 到 服务 器 
端 。send( ) 方法 会 返回 一 个 包含 RecordMetadata 的 Future 对 象 ， 不 过 因 
为 我 们 会 忽略 返回 值 ， 所 以 无 法 知道 消息 是 否 发 送 成 功 。 如 果 不 关 心 发 送 结果 ， 
人 比如 ， 记录 Twitter 消息 日 志 ， 或 记录 不 太 重 要 的 应 


日 我们 可 以 忽略 发 送 消息 时 可 能 发 生 的 错误 或 在 服务 铝 端 可 有 EB 发 生 的 错误 ， 但 在 
发 送 消息 之 前 ， 生 产 者 还 是 有 可 能 发 生 其 他 的 异常 。 这 些 异 常 有 可 能 是 
SerializationException (说 明 序 列 化 消息 失败 ) 、BufferExhaustedException 或 
TimeoutException 〈 说 明 缓 冲 区 已 满 ) ， 又 或 者 是 InterruptException (说 明 发 送 线 
程 被 中 断 ) 。 


3.3.1 同步 发 送 消息 
最 简单 的 同步 发 送 消息 方式 如 下 所 示 。 


ProducerRecord<String，String> record = 
new ProducerRecord<>("CustomerCountry", "Precision Products", 


"France"); 
try { 


producer .send(record).get(); @ 
} catch (Exception e) { 
e.printStackTrace()， © 


} 


Le 


@ 在 这 里 ， producer . send ( ) 方法 先 返 回 一 个 Future 对 象 ， 然 后 调用 Future 
对 象 的 get ( ) 方法 等 待 Kafka 响应 。 如 果 服 务 器 返回 错误 ，get ( ) 方法 会 抛 出 
异常 。 如 果 没 有 发 生 错 误 ， 我 们 会 得 到 一 个 RecordMetadata 对 象 ， 可 以 用 它 
获取 消息 的 偏 移 量 。 


@ 如 果 在 发 送 数据 之 前 或 者 在 发 送 过 程 中 发 生 了 任何 错误 ， 比 如 broker 返回 了 一 
个 不 允许 重 发 消息 四 于 间或 首 己 经 起 过 了 重 发 的 次 数 ， 那 么 就 会 抛 出 异常 。 我 们 
只 是 简单 地 把 异常 信息 打印 出 来 。 


KafkaProducer 一 般 会 发 生 两 类 错误 。 其 中 一 类 是 可 重 斌 错误， 这 类 错误 可 以 
通过 重 发 消息 来 解决 。 比 如 对 于 连接 错误 ， 可 以 通过 再 次 建立 连接 来 解决 ，“ 无 
主 (no leader) ”错误 则 可 以 通过 重新 为 分 区 选举 首领 来 解决 。KafkaProducer 
可 以 被 配置 成 自动 重 试 ， 如 果 在 多 次 重 试 后 仍 无 法 解决 问题 ， 应 用 程序 会 收 到 一 
个 重 试 异常 。 男 一 类 错误 无 法 通过 重 试 解决 ， 比 如 “消息 太 大 ”异常 。 对 于 这 类 错 
误 ，KafkaProducer 不 会 进行 任何 重 试 ， 直 接 抛 出 异常 。 


3.3.2 异步 发 送 消息 


假设 消息 在 应 用 程序 和 Kafka 集群 之 间 一 个 来 回 需 要 10ms。 如 果 在 发 送 完 每 个 消 
\ 后 都 等 竺 回应， 那么 发 送 100 个 消息 需要 1 秒 。 但 如 果 只 发 送 消息 而 不 等 等 响 
; 闻 和 必 100 个 消 息 所 需要 的 时 间 会 少 很 多 。 大 多 数 时 候 ， 我 们 并 不 需要 等 
待 响应 管 Kafka 会 把 目标 主题 、 分 区 信息 和 消息 的 偏 移 量 发 送 回 来 ， 但 对 
0 是 必需 的 。 不 过 在 遇 到 消息 发 送 失败 时 ， 我 们 需要 抛 
出 异常 、 记 录 错 误 日 志 ， 或 者 把 消息 写 入 “错误 消息 "文件 以 便 日 后 分 析 。 


为 了 在 异步 发 送 消息 的 同时 能 够 对 异常 情况 进行 处 理 ， 生 产 者 提供 了 回调 文 持 。 
下 面 是 使 用 回调 的 一 个 例子 。 


Ne 


private class DemoProducerCallback implements Callback {©@ 
Q@Override 
public void onCompletion(RecordMetadata recordMetadata, Exception e) { 
if (e != null) { 
e.printstackTrace(); © 
J 
} 
} 


ProducerRecord<String, String> record = 

new ProducerRecord<>("CustomerCountry", "Biomedical Materials", 
"USA") ph © 
producer.send(record, new DemopProducerCallback()); @ 


el 


@ 为 了 使 用 回调 ， 需 要 一 个 实现 ] | 
org.apache.kafka.clients.producer .Callback 接口 的 类 ， 这 个 接口 
只 有 一 个 onCompletion 方法 。 


@ 如 果 Kafka 返回 一 个 错误 ，onCompletion 方法 会 抛 出 一 个 非 空 non null) 
异常 。 这 里 我 们 只 是 简单 地 把 它 打 印 出 来 ， 但 是 在 生产 环境 应 该 有 更 好 的 处 理 方 
式 O 


日 记录 与 之 前 的 一 样 。 
@ 在 发 送 消息 时 传 进去 一 个 回调 对 象 。 


3.4 生产 者 的 配置 


到 目前 为 止 ， 我 们 只 介绍 了 生产 者 的 几 个 必要 配置 参数 一 
bootstrap.servers API 以 及 序列 化 器 。 


生产 者 还 有 很 多 可 配置 的 参数 ， 在 Kafka 文档 里 都 有 说 明 ， 它 们 大 部 分 都 有 合理 
的 默认 值 ， 所 以 没有 必要 去 修改 它们 。 不 过 有 几 个 参数 在 内 存 使 用 、 性 能 和 可 靠 
性 方面 对 生产 者 影响 比较 大 ， 接 下 来 我 们 会 一 一 说 明 。 


01. acks 


acks 参数 指定 了 必须 要 有 多 少 个 分 区 副本 收 到 消息 ， 生 产 者 才 会 认为 消息 
写 入 是 成 功 的 。 这 个 参数 对 消息 丢失 的 可 能 性 有 重要 影响 。 该 参数 有 如 下 选 
项 。 


。 如果 acks=9 ， 生 产 者 在 成 功 写 入 消息 之 前 不 会 等 待 任何 来 自 服 务 器 的 
啊 应 。 也 束 是 说， 如 有 果 当 中 出 现 了 问题 ， 导 致 服务 部 没有 收 到 消息 ， 那 
么 生产 者 就 无 从 得 知 ， 消 息 也 就 丢失 了 。 不 过 ， 因 为 生产 者 不 需要 等 待 

服务 器 的 响应 ， 所 以 它 可 以 以 网 络 能 够 支持 的 最 大 速度 发 送 消息 ， 从 而 

达到 很 高 的 吞吐 量 。 

。 如 果 acks=1 ， 只 要 集群 的 首领 节点 收 到 消息 ， 生 产 者 束 会 收 到 一 个 来 

自 服 务 器 的 成 功 啊 应 。 如 果 消 息 无 法 到 达 首 领 节 点 (比如 首领 节点 月 

溃 ， 新 的 首领 还 没有 被 选举 出 来 ) ， 生 产 者 会 收 到 一 个 错误 响应 ， 为 了 

避免 数据 丢失 ， 生 产 者 会 重 发 消息 。 不 过 ， 如 采 一 个 没有 收 到 消息 的 市 

点 成 为 新 首领 ， 消 息 还 是 会 丢失 。 这 个 时 候 的 吞吐 量 取 决 于 使 用 的 是 同 

步 发 送 还 是 异步 发 送 。 如 采 让 发 送 客户 端 等 待 服务 器 的 啊 应 (通过 调用 

Future 对 象 的 get ( ) 方法 ) ， 显 然 会 增加 延迟 (在 网 络 上 传输 一 个 来 

回 的 延迟 ) 。 如 果 客 户 端 使 用 回调 ， 延 迟 问 题 就 可 以 得 到 缓解 ， 不 过 知 
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吐 量 还 是 会 受 发 送 中 消息 数量 的 限制 〈 比 如 ， 生 产 者 在 收 到 服务 器 响应 

之 前 可 以 发 送 多 少 个 消息 ) 。 

。 如 果 acks=all ， 只 有 当 所 有 参与 复制 的 节点 全 部 收 到 消息 时 ， 生 产 者 
才 会 收 到 一 个 来 委 服 务 器 的 成 功 响应 。 这 种 模式 是 最 安全 的 ， 它 可 以 保 
证 不 止 一 个 服务 器 收 到 消息 ， 就 算 有 服务 器 发 生 崩 并， 整个 集群 仍然 可 
以 运行 (第 5 章 将 讨论 更 多 的 细节 ) 。 不 过 ， 它 的 延迟 比 acks=1 时 更 
高 ， 因 为 我 们 要 等 待 不 只 一 个 服务 器 节点 接收 消息 。 


buffer.memory 


该 参数 用 来 设置 生产 者 内 存 缓冲 区 的 大 小 ， 生 产 者 用 它 已 缓冲 要 发 送 到 服务 器 
的 消息 。 如 果 应 用 程序 发 送 消息 的 速度 超过 发 送 到 服务 器 的 速度 ， 会 导致 生 
产 者 空间 不 足 。 。 这 个 时 候 ， send( ) 方法 调用 要 么 被 阻塞 ， 要 公 抽 出 异常 
取决 于 如 何 设置 block .on.buffer .full 参数 (在 0.9.0.0 版 本 里 被 蔡 换 
成 了 max.block.ms ， 表 示 在 抛 出 异常 之 前 可 以 阻塞 一 段 时 间 ) 。 


compression.type 


默认 情况 下 ， 消 息 发 送 时 不 会 被 压缩 。 该 参数 可 以 设置 为 snappy 、gzip 
或 1z4 ， 它 指定 了 消息 被 发 送 给 broker 之 前 使 用 哪 一 种 压缩 鼻 法 进行 压缩 * 
snappy 上 庄 缩 算法 由 Google 发 明 ， 它 口 用 较 少 的 却 能 提供 较 好 的 性 能 
和 相当 可 观 的 压缩 比 ， 如 果 比 较 关 注 性 能 和 网 络 带 可 以 使 用 这 种 算法 
gzip 压缩 算法 一 般 会 占用 较 多 的 CPU ， 但 会 提供 更 高 的 压缩 | 所 以 如 果 网 
络 带宽 比较 有 限 ， 可 以 使 用 这 种 算法 。 使 用 压缩 可 以 降低 网 络 传输 开销 和 存 
储 开 销 ， 而 这 往往 是 向 Kafka 发 送 消息 的 瓶颈 所 在 。 


retries 


生产 者 从 服务 器 收 到 的 错误 有 可 能 是 临时 性 的 错误 (比如 分 区 找 不 到 首 
领 ) 。 在 这 种 情况 下 ，retries 参数 的 值 决 定 了 生产 者 可 以 重 发 消息 的 次 
数 ， 如 果 达 到 这 个 次 数 ， 生 产 者 会 放弃 重 试 并 返回 错误 。 默 认 情 况 下 ， 生 产 
者 会 在 每 次 重 试 之 间 等 待 100ms， 不 过 可 以 通过 retry.backoff .ms 参数 
来 改变 这 个 时 间 间 隔 。 建 议 在 设置 重 试 次 数 和 重 试 时 间 间 隔 之 前 ， 先 测试 一 
下 恢 3 点 需要 多 少时 间 (比如 所 有 分 区 选举 出 首领 需要 多 长 时 
间 ) ， 让 总 的 重 试 时 间 比 Kafka 集群 从 月 溃 中 恢复 的 时 间 长 ， 否 则 生产 者 会 
过 早 地 放弃 重 试 。 不 过 有 些 错误 不 是 临时 性 错误 ， 没 办 法 通过 重 试 来 解决 
(比如 “消息 太 大 ”错误 ) 。 一 般 情 况 下 ， 因 为 生产 者 会 自动 进行 重 试 ， 所 以 
就 没 必要 在 代码 逻辑 里 处 理 那 些 可 重 试 的 错误 。 你 只 需要 处 理 那 些 不 可 重 试 
的 错误 或 重 试 次 数 超出 上 限 的 情况 。 


batch.size 


当 有 多 个 消息 需要 被 发 送 到 同一 个 分 区 时 ， 生 产 者 会 把 它们 放 在 同一 个 批 次 
里 。 该 参数 指定 了 一 个 批 次 可 以 使 用 的 内 存 大 小 ， 按 照 字 市 数 计 算 (而 不 是 


06. 


07. 


08. 


09. 


10. 


肖 息 个 数 ) 。 当 批 次 被 填 满 ， 批 次 里 的 所 有 消息 会 被 发 送出 去 。 不 过 生产 者 
并 不 一 定 都 会 等 到 批 次 被 填 满 才 发 送 ， 半 满 的 批 次 ， 甚 至 只 包含 一 个 消息 的 
批 次 也 有 可 能 被 发 送 。 所 以 就 算 把 批 次 大 小 设置 得 很 大 ， 也 不 会 造成 延迟 ， 
只 是 会 占用 更 多 的 内 存 而 已 。 但 如 果 设置 得 太 小 ， 因 为 生产 者 需要 更 频繁 地 
发 送 消息 ， 会 增加 一 些 额外 的 开销 。 


< 褒 


lingerms 


该 参数 指定 了 生产 者 在 发 送 批 次 之 前 等 待 更 多 消息 加 入 批 次 的 时 间 。 
KafkaProducer 会 在 批 次 填 满 或 inger ,ms 达到 上 限时 把 批 次 发 送出 
去 。 默 认 情 况 下 ， 只 要 有 可 用 的 线程 ， 生 产 者 就 会 把 消息 发 送出 去 ， 就 算 批 
次 里 只 有 一 个 消息 。 把 Linger .ms 设置 成 比 0 大 的 数 ， 让 生产 者 在 发 送 批 
次 之 前 等 待 一 会 儿 ， 使 更 多 的 消息 加 入 到 这 个 批 次 。 虽 然 这 样 会 增加 延迟 ， 
(因为 一 次 性 发 送 更 多 的 消息 ， 每 个 消息 的 开销 就 变 小 


client.id 


该 参数 可 以 是 任意 的 字符 串 ， 服 务 器 会 用 它 来 识别 消息 的 来 源 ， 还 可 以 用 在 
日 志和 配额 指标 里 。 


max.in.flight.requests.per.connection 


该 参数 指定 了 生产 者 在 收 到 服务 器 响应 之 前 可 以 发 送 多 少 个 消息 。 它 的 值 越 
高 ， 就 会 占用 越 多 的 内 存 ， 不 过 也 会 提升 吞吐 量 。 把 它 设 为 16 可 以 保证 消息 
是 按 照发 送 的 顺序 写 入 服务 器 的 ， 即 使 发 生 了 重 试 。 


timeout.ms 、 request.timeout.ms 和 metadata.fetch.timeout.ms 


request .timeout .ms 指定 了 生产 者 在 发 送 数据 时 等 竺 服务 器 返回 响应 的 
时 间 ，metadata.fetch . timeout , ms 指定 ] 生产 者 在 获取 元 数据 (比如 
目标 分 区 的 首领 是 谁 ) 时 等 待 服务 器 返回 响应 的 时 间 。 如 果 等 待 响 应 超时 ， 
那么 生产 省 要 入 重 试 发 送 数据 ， 要 么 返回 一 个 错误 ( 抛 出 异常 或 执 千 回 

调 ) 。timeout .ms 指定 了 broker 等 待 同步 副本 返回 消息 确认 的 时 间 ， 与 
asks 的 配置 相 匹 配 -如 果 在 指定 时 间 内 没有 收 到 同步 副本 的 确认 ， 那 么 
broker 就 会 返回 一 个 错误 。 


max.block.ms 


该 参数 指定 了 在 调用 send ( ) 方法 或 使 用 partitionsFor() 方法 获取 元 
数据 时 生产 者 的 阻塞 时 间 。 当 生产 者 的 发 送 缓冲 区 已 满 ， 或 者 没有 可 用 的 元 
数据 时 ， 这 些 方法 就 会 阻塞 。 在 阻塞 时 间 达 到 max ,block,ms 时 ， 生 产 者 
会 抛 出 超时 异常 。 


11. max.request.size 


该 参数 用 于 控制 生产 者 发 送 的 请 求 大 小 。 它 可 以 指 能 发 送 的 单个 消息 的 最 大 
值 ， 也 可 以 指 单个 请 求 里 所 有 消息 总 的 大 小 。 例 如 ， 假 设 这 个 值 为 1MB， 那 


么 可 以 发 送 的 单个 最 大 消息 为 1MB, ， 或 者 生产 者 可 以 在 单个 请 求 里 发 送 一 个 


批 次 ， 该 批 次 包含 了 1000 个 消息 ， 每 个 消息 大 小 为 1KB 。 


另外 ，broker 对 


可 接收 的 消息 最 大 值 也 有 自己 的 限制 “message ,max,bytes ) ， 所 以 两 


边 的 配置 最 好 可 以 匹配 ， 避 免 生产 者 发 送 的 消息 被 broker 


12. receive.bufferbytes 和 send.bufferbytes 


拒绝 。 


这 两 个 参数 分 别 指定 了 TCP socket 接收 和 发 送 数据 包 的 缓冲 区 大 小 。 如 果 它 


们 被 设 为 -1， 就 使 用 操作 系统 的 默认 值 。 如 果 生 产 者 或 消 于 


费 者 与 broker 处 于 


不 同 的 数据 中 心 ， 那 么 可 以 适当 增 大 这 些 值 ， 因 为 跨 数 据 
有 比较 高 的 延迟 和 比较 低 的 带宽 。 


人 顺序 保证 


心 的 网 络 一 般 都 


Kafka 可 以 保证 同一 个 分 区 里 的 消息 是 有 序 的 。 也 就 是 说 ， 如 果 生 产 者 按照 


一 定 的 顺序 发 送 消息 ， broker 就 会 按照 这 个 顺序 把 它们 写 入 分 


让 区 ， WE 


会 按照 同样 的 顺序 读 取 它 们 。 在 某 些 情况 下 ， 顺 序 是 非常 重 


8 


要 的 。 例 如 ， 


一 个 账户 存 入 100 元 再 取出 来 ， 这 个 与 先 取 钱 再 存 钱 是 截然 
有 些 场景 对 顺序 不 是 很 敏感 。 


如 果 把 retries 设 为 非 零 整数 ， 同 时 把 


不 同 的 ! 不 这， 


max,.in.flight,redquests,per.connection 设 为 比 1 大 的 数 ， 那 


么 ， 如 果 第 一 个 批 次 消息 写 入 失败 ， 而 第 二 个 批 次 写 入 成 功 ， 
如 果 此 时 第 一 个 批 次 也 写 入 成 功 ， 那 么 两 
过 来 了 


一 般 来 说 ， 如 果 某 些 场景 要 求 消息 是 有 序 的 ， 那 么 消息 是 否 


broker 会 重 试 
个 批 次 的 顺序 就 


关键 的 ， 所 以 不 建议 把 retries 设 为 0。 可 以 把 


max.in.flight.requests.per.connection 设 为 1， 


写 入 成 功 也 是 很 
这 样 在 生产 者 党 


试 发 送 第 一 批 消息 时 ， 束 不 会 有 其 他 的 消息 发 送 给 broker。 不 过 这 样 会 严重 


人 所 以 只 \ 有 在 对 消息 的 顺序 有 严格 要 求 
么 


3.5 “序列 化 器 


的 情况 下 才能 这 


我 们 已 经 在 之 前 的 例子 里 看 到 ， 创 建 一 个 生产 者 对 象 必须 指定 序列 化 器 。 我 们 已 
经 知道 如 何 使 用 黑 认 的 字符 串 序 列 化 器 ，Kafka 还 提供 了 整 型 和 字 节 数组 序列 化 


人 妖 ， 不 过 它们 还 不 足以 满足 大 部 分 场景 的 需求 。 到 最 后 ， 我 们 需要 序列 化 的 记录 
类 型 会 越 来 越 多 。 
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3.5.1 ” 自 定义 序列 化 器 


如 采 发 送 到 Kafka 的 对 象 不 是 简单 的 字符 串 或 整 型 ， 那 么 可 以 使 用 序列 化 框架 来 
创建 消息 记录 ， 如 Avro、Thrift 或 Protobuf， 或 者 使 用 自 定义 序列 化 器 。 我 们 强 
烈 建议 使 用 通用 的 序列 化 框架 。 不 过 ， 为 了 了 解 序 列 化 器 的 工作 原理 ， 也 为 了 说 
明 为 什么 要 使 用 序列 化 框架 ， 让 我 们 一 起 来 看 看 如 何 自 定义 一 个 序列 化 器 。 


假设 你 创建 了 一 个 简单 的 类 来 表示 一 个 客户 : 


public class Customer { 
private int customerID; 
private String customerName; 


public Customer(int ID, String name) { 
this.customerID = ID; 
this.customerName = name; 


} 
public int getID() { 


return customerID; 


public String getName() { 
return customerName ， 
} 
} 


现在 我 们 要 为 这 个 类 创建 一 个 序列 化 器 ， 它 看 起 来 可 能 是 这 样 的 : 


import org.apache.kafka.common.errors.SerializationException; 


import java.nio.ByteBuffer; 
import java.util.Map; 


public class CustomerSerializer implements Serializer<Customer> { 


Q@Override 
public void configure(Map configs, boolean iskey) { 
// 不 做 任何 配置 
} 


Q@Override 
/x 


ustomer 对 象 被 序列 化 成 : 
示 CustomerTD 的 4 字 季 束 数 
示 customerName 长 度 的 4 字 节 整数 (如 果 customerName 为 空 ， 则 长 度 为 0) 


A 


示 cUStomerName 的 N 个 字 节 


+ 
愉 浊 进 进 虽 
dl dl dl 


public byte[] serialize(String topic, Customer data) { 
try { 
byte[] serializedName; 
int stringSize; 
if (data == null) 
return null; 
else { 
if (data.getName() != null) { 
serializedName = data.getName().getBytes("UTF-8"); 
stringSize = SerializedName. Jength ; 
} else { 
serializedName = new byte[0]; 
stringSize = 0; 


} 


} 
ByteBuffer buffer = ByteBuffer.allocate(4 + 4 + stringSize); 
buffer.putIint(data.getID()); 
buffer .putInt(stringSize); 
buffer.put(serializedName); 


return buffer.array(); 
} catch (Exception e) { 
throw new SerializationException("Error when serializing Customer to 
byte[] " + e); 
} 


Q@Override 
public void close() { 


// 不 需要 关闭 任何 东西 
} 


只 要 使 用 这 个 CustomerSerializer ， 就 可 以 把 消息 记录 定义 成 
ProducerRecord<String, Customer>, ds 
传 给 生产 者 。 这 个 例子 很 简单 ， 不 过 代码 看 起 
型 的 消费 者 ， 可 能 需要 把 customerID 字段 变 成 攻 整 型 或 者 为 Customer 
startDate 字段 ， 这 样 束 会 出 现 新 旧 消 息 的 兼容 性 问题 。 在 不 同 版 本 的 序列 化 
器 和 反 序列 化 器 之 间 调 斌 兼容 性 问题 着 实 是 个 挑战 一 一 你 需要 比较 原始 的 字 节 数 
组 。 更 糟糕 的 是 ， 如 果 同 一 个 公司 的 不 同 团 队 都 需要 往 Kafka 写 入 Customer 数 
据 ， 那 么 他 们 就 需要 使 用 相同 的 序列 化 器 ， 如 果 序 列 化 器 发 生 改 动 ， 他 们 几乎 要 
在 同一 时 间 修 改 代码 。 


基 了 以 上 儿 点 原因 ， 我 们 不 建议 使 用 自 定义 序列 化 器 ， 而 是 使 用 已 有 的 序列 化 器 
和 反 序 列 化 器 ， 比 如 JSON、Avro、Thrift 或 Protobuf。 下 面 我 们 将 会 介绍 Avro， 
然后 演示 如 何 序 列 化 Avro 记录 并 发 送 给 Kafka 。 


3.5.2 ”使 用 Avro 序列 化 


Apache Avro (以 下 简称 Avro) 是 一 种 与 编程 语言 无 关 的 序列 化 格式 。 Doug 
Cnutting 创建 了 这 个 项 目 ， 目 的 是 提供 一 种 共享 数据 文件 的 广 5 


Avro 数据 通过 与 语言 无 关 的 schema 来 定义 。schema 通过 JSON 来 描述 ， 数 据 被 
序列 化 成 二 进 制 文件 或 JSON 文件 ， 不 过 一 般 会 使 用 二 进 制 文件 。Avro 在 读 写 文 
件 时 需要 用 到 schema，schema 一 般 会 被 内 骨 在 数据 文件 里 。 

Avro 有 一 个 很 有 意思 的 特性 是 ， 当 负责 写 消息 的 应 用 程序 使 用 了 新 的 schema， 

人 负责 读 消息 的 应 用 程 / J 可 以 继 乡 因而 无 需 做 任何 改动 ， 这 个 特性 使 得 它 特 
别 适合 用 在 像 Kafka 这 样 的 消息 系统 上 。 


假设 最 初 的 schema 是 这 样 的 : 


{"namespace": "customerManagement.avro", 
"type": "record", 
"name": "Customer", 
"fields":; [ 
{"nName": "id", "type": "int"}, 
{"nName":; "name", "type": "string"}, 


{"name": "faxNumber", "type": ["null", "string"], "default": "null"} @ 


@ id 和 name 字段 是 必需 的 ，faxNumber 是 可 选 的 ， 默 认为 nuL1L 。 
假设 我 们 已 经 使 用 了 这 个 schema 几 个 月 的 时 间 ， 并 用 它 生成 了 几 个 太 字 节 的 数 
据 。 现 在 ， 我 们 决定 在 新 版 本 里 做 一 些 修改 。 因 为 在 21 世纪 不 再 需要 
faxNumber 字段 ， 需 要 用 email 字段 来 代 远 它 。 


新 的 schema 如 下 : 


{"namespace": "customerManagement .avro"， 
"type": "record", 
"name": "Customer", 
"fields": [ 
{"nName": "id", "type": "int"}, 
{"name": "name", "type": "string"}, 


{"name": "email", "type": ["null", "string"], "default": "null"} 


更 新 到 新 版 的 shema 后 ， 旧 记录 仍然 包含 faxNumber 字段 ， 而 新 记录 则 包含 
email 字段 。 部 分 负责 读 取 数据 的 应 用 程序 进行 了 升级 ， 那 么 它们 是 如 何 处 理 这 
些 变化 的 呢 ? 


在 应 用 程 


getFaxNumber( ) 这 样 的 方法 。 如 果 人 页 到 使 用 新 schema 构建 的 消息 ， 


序 升级 之 前 ， 它 们 会 调用 类 似 getName() 、getId() 和 


getName() 和 getId() 方法 仍然 能 够 正常 返回 ， 但 getFaxNumber( ) 方法 会 


返回 nu 


11 ， 因 为 消息 里 不 包含 传真 号 码 。 


在 应 用 程序 升级 之 后 ，getEmail( ) 方法 取代 了 getFaxNumber() 方法 。 如 果 
磁 到 一 个 使 用 旧 schema 构建 的 消息 ， 那 么 getEmail( ) 方法 会 返回 null， 因 为 
旧 消 息 不 包含 邮件 地 址 。 


现在 可 以 看 出 使 用 Avro 的 好 处 了 : 我们 修改 了 消息 的 schema， 但 并 没有 更 新 所 


有 负责 读 取 数 据 的 应 用 程序 ， 而 这 样 仍然 不 会 出 现 异常 或 阻 断 性 错误 ， 也 不 需要 


对 现 有 数据 进行 大 幅 更 新 。 
不 过 这 里 有 以 下 两 个 需要 注意 的 地 方 。 
。 用 于 写 入 数据 和 读 取 数据 的 schema 必须 是 相互 兼容 的 。Avro 文档 提 到 了 一 
些 兼容 性 原则 。 


反 序 列 化 器 需要 用 到 用 于 写 入 数据 的 shema， 即 使 它 可 能 与 用 于 读 取 数 据 的 


schema 不 一 样 。Avro 数据 文件 里 就 包含 了 用 于 写 入 数据 的 schema， 不 过 在 


Kaf 


ka 里 有 一 种 更 好 的 处 理 方式 ， 下 一 小 市 我 们 会 介绍 它 。 


3.5.3” 在 Kafka 里 使 用 Avro 


Avro 的 数据 文件 里 包含 了 整个 schema， 不 过 这 样 的 开销 是 可 接受 的 。 但 是 如 果 
在 每 条 Kafka 记录 里 都 葵 入 schema， 会 让 记录 的 大 小 成 倍 地 增加 。 不 过 不 管 怎 


样 ， 在 读 取 记录 时 仍然 需要 用 到 整个 schema， 所 以 要 先 找到 schema。 我 人 ] 遵 循 
通用 的 结构 模式 并 使 用 “schema 注册 表 ” 来 达到 目的 。schema 注册 表 并 不 属于 


Kafka， 现 在 已 经 有 一 些 开源 的 schema 注册 表 实 现 。 在 这 个 例子 里 ， 我 们 使 用 的 


是 Confl 


uent Schema Registry。 该 注册 表 的 代码 可 以 在 GitHub 上 找到 ， 你 也 可 以 


把 它 作为 Confluent 平台 的 一 部 分 进行 安装 。 如 采 你 决定 使 用 这 个 注册 表 ， 可 以 
参考 它 的 文档 。 


我 们 把 所 有 写 入 数据 需要 用 到 的 schema 保存 在 注册 表 里 ， 然 后 在 记录 里 引用 
schema 的 标识 符 。 负 责 读 取 数 据 的 应 用 程序 使 用 标识 符 从 注册 表 里 拉 取 schema 
来 反 序列 化 记录 。 序 列 化 器 8 和 及 序 列 化 器 分 别 负责 处 理 schema 的 注册 和 拉 取 。 
Avro 序列 化 器 的 使 用 方法 与 其 他 序列 化 器 是 一 样 的 。 


包含 schema 
生产 者 ID 的 信息 消费 者 


序列 化 器 Kafka 反 序 列 化 侨 


Broker 


当前 schema 版 本 


图 3-2: Avro 记录 的 序列 化 和 反 序 列 化 流程 图 


下 面 的 例子 演示 了 如 何 把 生成 的 Avro 对 象 发 送 到 Kafka (关于 如 何 使 用 Avro 生 
成 代码 请 参考 Avro 文档 ) : 


Properties props = new Properties(); 


props.put("bootstrap.servers", "localhost:9092"); 
props.put("key.serializer", 
"io.confluent.kafka.serializers.KafkaAvroSerializer"); 
props.put("value.serializer", 
"io.confluent.kafka.serializers.KafkaAvroSerializer"); @ 
props.put("schema.registry.url", schemaUrl); 名 


String topic = "customerContacts",; 


Producer<String, Customer> producer = new KafkaProducer<String, 
Customer>(props); © 


// 不 断 生成 事件 ， 直 到 有 人 按 下 Ctrl+C 组 合 键 
while (true) { 
Customer customer = CustomerGenerator.getNext(); 
System.out.println("Generated customer " + 
customer.toString()); 
ProducerRecord<String, Customer> record = 
new ProducerRecord<>(topic, customer.getId(), 


customer); @ 
producer .send(record); © 
} 


@ 使 用 Avro 的 KafkaAvroSerializer 来 序列 化 对 象 。 注 意 ，AvroSerializer 
也 可 以 处 理 原 语 ， 这 就 是 我 们 以 后 可 以 使 用 字符 串 作 为 记录 键 、 使 用 客户 对 象 作 


为 值 的 原因 。 
@ schema.registry .url 是 一 个 新 的 参数 ， 指 向 schema 的 存储 位 置 。 


日 Customer 是 生成 的 对 象 。 我 们 会 告诉 生产 者 Customer 对 象 就 是 记录 的 
值 。 


@ 实例 化 一 个 ProducerRecord 对 象 ， 并 指定 Customer 为 值 的 类 型 ， 然 后 再 
传 给 它 一 个 Customer 对 象 。 


© 把 Customer 对象 作为 记录 发 送出 去 ，KafkaAvroSerializer 会 处 理 剩 下 
的 事情 。 


如 果 你 选择 使 用 一 般 的 Avro 对 象 而 非 生成 的 Avro 对 和 象 该 怎么 办 ? 不 用 担心 ， 这 
个 时 候 你 只 需 提 供 schema 就 可 以 了 : 


Properties props = new Properties(); 
props.put("bootstrap.servers", "localhost:9092"); 
props.put("key.serializer", 
"io.confluent.kafka.serializers.KafkaAvroSerializer"); @ 
props.put("value.serializer", 
"io.confluent.kafka.serializers.KafkaAvroSerializer"); 
props.put("schema.registry.url", url); © 


String SchemaString = "{\"namespace\": \"customerManagement.avro\", 


\"type\": \"'record\", "+ © 
"\"name\": \"Customer\"," + 
"\"fields\": [" + 
"{\"name\": \M"id\", \"type\": \"int\"}," + 
"{\"name\": \"name\", \"type\": \"string\"}," + 
"{\"name\": \"email\", \"type\": 
[\"null\",\"string 
\"], \"default\":\"null\" }" + 
| 


Producer<String, GenericRecord> producer = 
new KafkaProducer<String, GenericRecord>(props); @ 


Schema.Parser parser = new Schema.Parser(); 
Schema Schema = parser.parse(schemaString); 


for (int nCustomers = 0; nCustomers < customers; nCustomers++) { 
String name = "exampleCustomer" + nCustomers; 
String email = "example" + nCustomers + "Qexample.com"; 


GenericRecord customer = new GenericData.Record(schema); © 
customer.put("id", nCustomers); 

customer.put("name", name); 

customer.put("email", email); 


ProducerRecord<String, GenericRecord> data = 


new ProducerRecord<String， 
GenericRecord>("customerContacts", 
name， customer); 
producer .send(data); 


@ 仍然 使 用 同样 的 KafkaAvroSerializer 。 
@ 提供 同样 的 schema 注册 表 URI。 
@ 这 里 需要 提供 Avro schema， 因 为 我 们 没有 使 用 Avro 生成 的 对 象 。 


@ 对 象 类 型 是 Avro GenericRecord ， 我 们 通过 schema 和 需要 写 入 的 数据 来 
初始 化 它 。 


@ ProducerRecord 的 值 就 是 一 个 GenericRecord 对 象 ， 它 包含 了 schema 
和 数据 。 序 列 化 器 知道 如 何 从 记录 里 获取 schema， 把 它 保存 到 注册 表 里 ， 并 用 它 
序列 化 对 象 数 据 。 


3.6 分 区 


在 之 前 的 例子 里 ，ProducerRecord 对 象 包 含 了 目标 主题 、 键 和 值 。Kafka 的 消 
息 是 一 个 个 键 值 对 ，ProducerRecord 对 象 可 以 只 包含 目标 主题 和 值 ， 键 可 以 
设置 为 默认 的 Ts 不 过 大 多 数 应 用 程序 会 用 到 键 。 键 有 两 个 用 途 : 可 以 作为 
消息 的 附加 信息 ， 也 可 以 用 来 决定 消 息 该 被 写 到 主题 的 哪个 分 区 。 拥有 相同 键 的 
消息 将 被 写 到 同 - 个 分 区 。 也 就 是 说 ， 如 果 一 个 进程 只 从 一 个 主题 的 分 区 读 取 数 
据 (第 4 章 会 介绍 更 多 细节 ) ， 那 么 具有 相同 键 的 所 有 记录 都 会 被 该 进程 读 取 。 
要 创建 一 个 包含 键 值 的 记录 ， 只 需 像 下 面 这 样 创建 ProducerRecord 对 象 : 


一 < 


薄 


ProducerRecord<Integer, String> record = 
new ProducerRecord<>("CustomerCountry", "Laboratory Equipment", 


"USA" ) p 


如 有 果 要 创建 键 为 nul1 的 消息 ， 不 指定 键 束 可 以 了 : 


ProducerRecord<Integer, String> record = 
new ProducerRecord<>("CustomerCountry", "USA"); @ 


@ 这 里 的 键 被 设 为 nul1。 


如 采 键 值 为 null ， 并 且 使 用 了 默认 的 分 区 器 ， 那 么 记录 将 被 随机 地 发 送 到 主题 
内 各 个 可 用 的 分 区 上 。 分 区 器 使 用 轮 询 (Round Robin) 算法 将 消息 均衡 地 分 布 到 


各 个 分 区 上 。 


如 采 键 不 为 空 ， 


并 且 使 用 了 默认 的 分 区 器 ， 那 么 Kafka 会 对 键 进行 散 列 (使 用 


Kafka 自己 的 散 列 算法 ， 即 使 升级 Java 版 本 ， 散 列 值 也 不 会 发 生变 化 ) ， 然 后 根 


据 散 列 值 把 消息 映射 到 特定 的 分 区 上 。 这 里 的 关键 之 处 在 于 ， 同 一 个 键 总 是 被 映 


射 到 同一 个 分 区 上 ， 所 以 在 进行 映射 时 ， 我 们 会 使 用 主题 所 有 的 分 区 ， 而 不 仅仅 


是 可 用 的 分 区 。 这 也 意味 着 ， 如 采写 入 数据 的 分 区 是 不 可 用 的 ， 那么 不 会 发 生 错 


误 。 但 这 种 情况 很 少 发 生 。 我 们 将 在 第 6 章 讨论 Kafka 的 复制 功能 和 可 用 性 
只 有 在 不 改变 0 ， 键 与 分 区 之 间 的 映射 才能 保持 不 变 


例子 在 分 区 


号 


数 ] 


量 保持 不 变 的 情况 下 | 


区 34。 在 从 分 区 读 取 数据 时 ， 可 以 进行 各 种 优化 。 不 过 ， 一 旦 主题 增加 了 新 的 
分 区 ， 这 些 就 无 法 保证 了 


电 汪 可 


旧 数 据 仍然 留 在 分 区 34， 但 新 的 记录 可 能 被 写 到 其 


他 分 区 上 “。 如 有 果 要 使 用 键 来 映射 分 区 ， 那 么 最 好 在 创建 主题 的 时 候 就 把 分 区 规划 


好 (第 2 章 介 


绍 


了 如 何 确 定 合 适 的 分 区 数量 ) ， 而 且 永远 不 要 增加 新 分 区 。 


实现 自 定 义 分 区 策略 


我 们 已 经 讨论 了 默认 分 区 器 的 特点 ， 它 是 使 用 次 数 最 多 的 分 区 器 。 不 过 ， 除 了 散 
列 分 区 之 外 ， 有 时 候 也 需要 对 数据 进行 不 一 样 的 分 区 。 假 设 你 是 一 个 B2B 供应 


商 ， 你 有 一 个 大 客户 ， 它 是 手持 设备 Banana 的 制造 商 。Banana 占据 了 你 整体 业 
务 10% 的 份额 。 如 果 使 用 默认 的 散 列 分 区 算法 ，Banana 的 账号 记录 将 和 其 他 账 


号 记录 一 起 被 


分 


配给 相同 的 分 区 ， 写 致 这 个 分 区 比 其 他 分 区 要 大 一 些 。 服 务 器 + 


能 因此 出 现存 储 空间 不 是 、 处 理 缓慢 等 问题 。 我 们 需要 给 Banana 分 配 单独 的 分 
区 ， 然 后 使 用 散 列 分 区 算法 处 理 其 他 账号 。 


下 面 是 一 


自 定义 分 区 器 的 例子 : 


import org,apache,kafka.clients,.producer .Partitioner 

import org.apache.kafka.common.Cluster; 

import org.apache.kafka.common.PartitionInfo; 

import org.apache.kafka.common.record.InvalidRecordException; 
import org.apache.kafka.common.utils.Utils; 


public class BananaPartitioner implements Partitioner { 


public void configure(Map<String, ?> configs) {} @ 


public int partition(String topic, Object key, byte[] keyBytes, 


Object value, byte[] valueBytes, 
Cluster cluster) { 
List<PartitionInfo> partitions = 
cluster.partitionsForTopic(topic); 


int numPartitions = partitions.size(); 


if ((keyBytes == null) || (!(key instanceof String))) ©@ 
throw new InvalidRecordException("'We expect all messages 
to have customer name as key") 


if (((String) key).equals("Banana")) 
return numPartitions; // Banana 总 是 被 分 配 到 最 后 一 个 分 


// 其 他 记录 被 散 列 到 其 他 分 区 
return (Math.abs(Utils.murmur2(keyBytes)) % (numPartitions - 1)) 


Xl 


public void close() 人 


@ Partitioner 接口 包含 了 configure、partition 和 close 这 3 个 方 


法 。 这 里 我 们 只 实现 Peart i en. 方法 ， 不 过 我 们 真 不 应 该 在 partition 方法 
里 硬 编码 客户 的 名 字 ， 而 应 该 通过 configure 方法 传 进来 。 


@ 我 们 只 接受 字符 种 作为 键 ， 如 果 不 是 字符 串 ， 就 抛 出 异常 。 


3.7 “旧版 的 生产 者 API 


在 这 一 章 ， 我 们 讨论 了 生产 者 的 Java 客户 端 ， 它 是 
org.apache.kafka.clients 包 的 一 部 分 。 在 写 到 这 一 章 的 时 候 ，Kafka 还 有 
两 个 旧版 的 Scala 客户 端 ， 它 们 是 Kafka.producer 包 的 一 部 分 ， 同 时 也 是 
Kafka 的 核心 模块 ， 它 们 是 ESyncProducer (根据 acks 参数 的 具体 配置 情况 ， 在 
发 送 更 多 的 消息 之 前 ， 它 会 等 待 服务 器 对 已 发 消息 或 批 次 进行 确认 ) 和 
AsyncProducer (在 后 台 将 消息 分 为 不 同 的 批 次 ， 使 用 单独 的 线程 发 送 这 些 批 次 ， 
不 为 客户 端 提供 发 送 结果 ) 。 


因为 当前 版 本 的 生产 者 API 同时 支持 上 述 两 种 发 送 方式 ， 而 且 为 开发 者 提供 了 更 
高 的 可 靠 性 和 灵活 性 ， 所 以 我 们 不 再 讨论 旧版 的 API。 如 果 你 想 使 用 它们 ， 那 么 
在 使 用 之 前 请 再 三 考虑 ， 如 果 确 定 要 使 用 ， 可 以 从 Kafka 文档 中 了 解 更 多 的 信 


/DA 


3.8 ”总 结 


AN 一 器 


我 们 以 一 个 生产 者 示例 开始 了 本 章 的 内 容 引 将 消 妃 发 送 到 
Kafka。 然 后 我 们 在 代码 中 加 入 错误 处 理 逻 辑 ， 并 介 证 同 步 和 办 俏 丙 种 发送 方 
式 。 接 下来 ; 我 们 介 \ 细 了 生产 着 的 一 些 重要 配置 参数 以 及 它们 对 生产 者 行为 的 影 
啊 。 我 们 还 不 讨论 了 用 于 控制 消息 格式 的 序 列 化 器 ， 并 深入 探讨 了 Avro 一 种 在 


Kafka 
给 出 了 一 个 


读 取 消息 


月 定义 分 


' 得 到 广泛 应 用 的 序列 化 方式 。 最 后 
区 的 例子 。 


人 首 如 何 向 Kafka 写 入 消息 ， 


在 第 4 


， 我 们 讨论 了 Kafka 的 分 区 机 制 ， 并 


章 ， 我 们 将 学 习 如 何 从 Kafka 


第 4 章 Kafka 消费 者 - 从 Kafka 读 


取 数 据 


应 用 程序 使 用 Kafkaconsumer 向 Kafka 订阅 主题 ， 并 从 订阅 的 主题 上 接收 消 
息 。 从 Kafka 读 取 数据 不 同 了 
和 想法 。 如 果 不 先 理解 这 些 概念 ， 
下 来 先 解释 这 些 重要 


不 同 的 应 用 程序 。 


从 其 他 消息 系统 读 取 数据 ， 
就 难以 理解 如 何 使 用 ? 


涉及 一 


肖 费 者 API 。 


4.1 KafkaConsumer 概 念 


要 想 知道 如 何 从 Kafka 读 取 消息 


章 市 将 解释 这 些 概 念 。 


4.1.1 消费 者 和 消费 者 群 组 


当 自 


的 概念 ， 然 后 再 举 几 个 例子 ， 演 示 如 何 使 用 六 


需要 先 了 解 消费 者 和 消费 者 群 组 的 概念 。 


习 /DA， 


假设 我 人 


] 有 一 个 应 用 程序 


再 把 它们 保存 
息 ， 然 后 验证 


起 来 。 


应 用 程序 需要 创建 


了 应 用 程序 验证 数据 的 速度 ， 


已 ,， 


伸缩 。 


oe 


应 用 程序 会 远 跟 不 上 消息 
就 像 多 个 生产 者 可 
f 费 考 从 同一 个 主题 读 取消 


肖 费 者 从 属于 


Kafka 六 


个 消费 者 接收 主题 一 部 分 分 区 的 消息 


假设 主题 Tl1 有 4 个 分 
我 们 用 它 订阅 主题 T1。 消 费 者 C1 将 收 到 主题 T1 全 许 


者 ， 
4-1 所 示 。 


区 ， 


消费 者 群 组 。 一 个 群 组 


些 独特 的 概念 
所 以 我 们 接 
半 费 者 API 实现 


以 下 


NW 
个 消 


电 生 成 的 速度 。 


以 向 相同 的 主题 写 


对 消 


4 


局 。 


我 们 创建 了 消费 者 C1， 


订阅 主题 并 开始 接收 消 


需要 从 一 个 Kafka 主题 读 取 消息 并 验证 这 些 消 息 ， 然 后 
费 者 对 象 ， 


NE 


肖 居 并 保存 结果 。 过 了 一 阵子 ， 生 产 者 往 主 题写 入 } 


肖 息 的 速度 超过 


这 个 时 候 该 怎么 办 ? 如 果 只 使 用 单个 ; 


省 费 者 处 理 消 


J 此 时 很 有 必要 对 消 
入 消息 一 样 ， 


息 进行 分 流 。 
EB 的 消费 者 订阅 的 是 同一 个 主题 ， 


我 人 


] 也 可 以 使 用 多 


它 是 群 


昌 尾 


G1 § 


的 消费 


组 
部 


4 


个 分 


区 的 消息 ， 如 


图 4-1: 1 个 消费 者 收 到 4 个 分 区 的 消息 


如 采 在 群 组 G1 里 新 增 一 个 消费 者 C2， 那 么 每 个 消费 者 将 分 别 从 两 个 分 区 接收 消 
思 。 我 们 假设 消费 者 C1 接收 分 区 0 和 分 区 2 的 消息 ， 消 费 者 C2 接收 分 区 1 和 分 
区 3 的 消息 ， 如 图 4-2 所 示 。 


-Le 
A 


图 4-2: 2 个 消费 者 收 到 4 个 分 区 的 消息 
如 有 果 群 组 G1 有 4 个 消费 者 ， 那 么 每 个 消费 者 可 以 分 配 到 一 个 分 区 ， 如 图 4-3 所 


不 


消费 者 群 组 1 
消费 者 1 


消费 者 3 


图 4-3: 4 个 消费 者 收 到 4 个 分 区 的 消息 


如 采 我 们 往 群 组 里 添加 更 多 的 消费 者 ， 超 过 主题 的 分 区 数量 ， 那 么 有 一 部 分 消费 
者 束 会 被 内 置 ， 不 会 接收 到 任何 消息 ， 如 图 4-4 所 示 。 


消费 者 群 组 1 
消费 者 1 


消费 者 3 


消费 者 4 


消费 者 5 
图 4-4: 5 个 消费 者 收 到 4 个 分 区 的 消息 


往 群 组 里 增加 消费 者 是 横向 伸缩 消费 能 力 的 主要 方式 。Kafka 消费 者 经 常会 做 一 
些 高 延迟 的 操作 ， 比 如 把 数据 写 到 数据 库 或 HDFS， 或 者 使 用 数据 进行 比较 耗 时 
的 计算 。 在 这 些 情况 下 ， 单 个 消费 者 无 法 跟 上 数据 生成 的 速度 ， 所 以 可 以 增加 更 
多 的 消费 者 ， 让 它们 分 担负 载 ， 每 个 消费 者 只 处 理 部 分 分 区 的 消息 ， 这 束 是 横向 
伸缩 的 主要 手段 。 我 们 有 必要 为 主题 创建 大 量 的 分 区 ， 在 负载 增长 时 可 以 加 入 更 
多 的 消费 者 。 不 过 要 注意 ， 不 要 让 消费 者 的 数量 超过 主题 分 区 的 数量 ， 多 余 的 消 
费 者 只 会 被 内 置 。 第 2 章 介 绍 了 如 何 为 主题 选择 合适 的 分 区 数量 。 


除了 通过 增加 消费 者 来 横向 伸缩 单个 应 用 程序 外 ， 还 经 常 出 现 多 个 应 用 程序 从 同 
一 个 主题 读 取 数据 的 情况 。 实 际 上 ，Kafka 设计 的 主要 目标 之 一 ， 就 是 要 让 Kafka 
主题 里 的 数据 能 够 满足 企业 各 种 应 用 场景 的 需求 。 在 这 些 场景 里 ， 每 个 应 用 程序 
可 以 获取 到 所 有 的 消息 ， 而 不 只 是 其 中 的 一 部 分 。 只 要 保证 每 个 应 用 程序 有 自己 
的 消费 者 群 组 ， 束 可 以 让 它们 获取 到 主题 所 有 的 消息 。 不 同 于 传统 的 消息 系统 ， 

横向 伸缩 Kafka 消费 者 和 消费 者 群 组 并 不 会 对 性 能 造成 负面 影响 。 


在 上 面 的 例子 里 ， 如 采 新 增 一 个 只 包含 一 个 消费 者 的 群 组 G2， 那 么 这 个 消费 者 
将 从 主题 T1 上 接收 所 有 的 消息 ， 与 群 组 G1 之 间 互 不 影响 。 群 组 G2 可 以 增加 更 


多 的 消费 者 ， 每 个 消费 者 可 以 消费 若干 个 分 区 ， 束 像 群 组 G1 那样 ， 如 图 4-5 所 
示 。 总 的 来 说 ， 群 组 G2 还 是 会 接收 到 所 有 消息 ， 不 管 有 没有 其 他 群 组 存在 。 


简 而 言 之 ， 为 每 一 个 需要 获取 一 个 或 多 个 主题 全 部 消息 的 应 用 程序 创建 一 个 消费 
者 群 组 ， 然 后 往 群 组 里 添加 消费 者 来 伸缩 读 取 能 力 和 处 理 能 力 ， 群 组 里 的 每 个 消 
费 者 只 处 理 一 部 分 消息 。 


消费 者 群 组 1 


消费 者 群 组 2 


图 4-5: 两 个 消费 者 群 组 对 应 一 个 主题 
4.1.2 ”消费 者 群 组 和 分 区 再 均衡 


我 们 已 经 从 上 一 个 小 节 了 解 到 ， 和 群 组 里 的 


肖 费 者 共同 读 取 主题 的 分 区 。 一 个 新 的 


年 


关闭 或 发 生 崩 并 时 ， 它 就 离开 群 组 ， 原 引 
者 来 读 取 。 在 主题 发 生变 化 时 ， 比 如 管理 员 添 加 了 新 的 分 区 ， 会 发 生 分 区 重 分 
配 。 


分 区 的 所 有 权 从 一 个 消费 者 转移 到 另 一 个 消费 者 ， 


本 上 由 


消费 者 加 入 群 组 时 ， 它 读 取 的 是 原本 由 其 他 消费 者 读 取 的 消息 。 。 当 一 个 消费 者 被 


它 读 取 的 分 区 将 由 群 组 里 的 其 他 消费 


这 样 的 行为 被 称 为 再 均衡 。 再 


均衡 非常 重要 ， 它 为 消费 者 群 组 融 来 了 高 可 用 性 和 伸缩 性 (我 们 可 以 放心 地 添加 


或 移 除 消费 者 ， 不 过 在 正常 情况 下 ， 


我 人 


] 并 不 布 望 发 生 这 样 的 行为 。 在 再 均衡 


期 间 ， 消 费 者 无 法 读 到 消息 造成 整个 群 组 一 小 段 时 间 的 不 可 用 。 "用 外 ， 当 分 区 


被 重新 分 配给 男 一 个 消费 者 时 ， 消 费 者 当前 的 读 取 状态 会 丢失 ， 它 有 可 能 还 需要 


去 刷新 缓存 ， 在 它 重新 恢复 状态 之 前 会 拖 慢 应 用 程序 。 我 们 将 在 本 章 讨论 如 何 进 
行 安全 的 再 均衡 ， 以 及 如 何 避 免 不 必 要 的 再 均衡 。 


发 送 心 跳 来 维持 它们 和 群 
者 以 正常 的 时 间 间 隔 发 送 心 跳 ， 


如 果 一 个 消费 者 发 生 有 骨 演 ， 并 停止 读 取 消 


党 
z, 


。 消 费 者 会 在 轮 询 消息 (为 了 获取 消息 


消费 者 通过 向 被 指派 为 群 组 协调 器 的 broker (个 同 的 群 组 可 以 有 个 同 的 协调 器 ) 
[0 群 组 的 从 属 关系 以 及 它们 对 分 区 的 所 有 权 关 系 。 只 要 消费 
就 被 认为 是 活跃 的 ， 说 明 它 还 在 读 取 分 } 区 里 的 消 


\) 或 提交 偏 移 量 时 发 送 心跳 。 如 果 消 费 
者 你 [发展 人 半 隐 四 问号 名 会 话 就 会 过 期 ， 群 组 协调 需 认 为 它 已 经 死亡 ， 就 
会 触发 一 次 再 均衡 。 


自 


/DA 


光 全 了 才 会 触发 三 均衡 。 在 这 几 秒 钟 时 间 里 


而 区 量 降 低 处 理 停顿 。 在 本 革 的 后 驴 


。 在 清理 消费 者 时 ， 


空 环 


作 关 所 名和 会 话 过 期 站 的 配置 数 


田 


， 群 组 协调 器 会 等 和 于 儿 秘 钟 ， 


死 挥 的 消费 者 不 会 读 取 分 区 里 的 消 
消费 者 会 通知 协调 器 它 将 要 离开 群 组 ， 认 调 器 会 立即 角 发 


壹 部 分 ， 我 们 将 讨论 一 些 用 于 控制 


以 及 如 何 根据 实际 需要 来 配置 这 些 参 


心跳 行为 在 最 近 版 本 中 的 变化 
在 0.10.1 版 本 里 ，Kafka 社区 引入 了 一 个 独立 的 心跳 线程 ， 可 以 在 轮 询 消 息 


的 空 档 发 送 心跳 。 这 样 一 来 ， 发 送 心跳 的 频率 〈 也 就 是 消费 者 群 组 用 于 检测 
发 生 崩溃 的 消费 者 或 不 再 发 送 心 跳 的 消费 者 的 时 间 ) 与 消息 轮 询 的 频率 (由 
处 理 消 息 所 花费 的 时 间 来 确定 ) 之 间 就 是 相互 独立 的 。 在 新 版 本 的 Kafka 
里 ， 可 以 指定 消费 者 在 离开 群 组 并 触发 再 均衡 之 前 可 以 有 多 长 时 间 不 进行 消 
息 轮 询 ， 这 样 可 以 避免 出 现 活 锁 (livelock) ， 


月 演 ， 只 是 由 于 某 些 原因 导致 元 法 正常 运行 。 


session.timeout .ms 是 相互 独立 的 ， 


后 者 


的 时 间 和 停止 发 送 心跳 的 时 间 。 


本 章 的 剩余 部 分 将 会 讨论 使 用 旧版 本 Kafka 


比如 有 时 候 应 用 程序 并 没有 
这 个 配置 与 
用 于 控制 检测 消费 者 发 生 崩 浇 


会 面临 的 一 些 问题 ， 以 及 如 何 解 


决 这 些 问题 。 本 章 还 包括 如 何 应 对 需要 


较 长 时 间 来 处 理 消 息 的 情况 的 讨论 ， 
这 些 与 0.10.1 或 更 高 版 本 的 Kafka 没有 太 大 关系 。 如 采 你 使 用 的 是 较 新 版 本 


的 Kafka， 


并 且 需 要 处 理 耗费 较 长 时 间 的 消息 


习 /D， 


® 分 配 分 区 是 怎样 的 一 个 过 程 


当 消 费 者 要 加 入 群 组 时 ， 它 会 向 群 组 协调 器 发 送 一 个 JoinGroup 请 
个 加 入 群 组 的 消费 者 将 成 为 “ 群 主 ”。 


(列表 


负责 给 每 


个 消费 者 分 


群 主 从 协调 器 那里 


配 分 区 。 它 使 用 


接口 的 类 来 决定 哪些 分 区 
Kafka 内 置 了 两 种 分 jC 案 略 ， 


完毕 之 后 ， 


送 给 所 有 请 


又 应 该 被 分 


群 主 把 分 
费 者 。 每 


包含 了 所 有 最 近 发 送 这 心跳 的 清 旨 者 它们 被 认为 是 活跃 的 ) 


里 所 有 消费 者 的 分 


个 消费 者 只 能 看 到 


站 配 


> 配 信息 /DA 


人、\ 只 需要 加 大 
max.poll.interval.ms 的 值 来 增加 轮 询 间隔 的 时 长 。 


青 求 。 第 一 


获得 群 组 的 成 员 列表 


并 


一 个 实现 了 partitionAssignor 
配给 哪个 消费 者 。 
在 后 面 的 配置 参数 小 市 我 们 将 深入 讨论 。 分 配 
配 BB 协调 器 再 把 这 些 信息 发 
自己 的 4 


只 有 和 群 主 知道 群 组 


4.2 创建 Kafka 消 费 者 


先 创建 一 个 KafkaConsumer 对 象 。 创 建 


在 读 取消 息 之 前 ， 
KafkaConsumer 对 象 与 创建 kafkaProducer 对 和 象 非常 相似 一 把 想 要 传 给 消 
费 者 的 属性 放 在 Properties 对 象 里 
在 这 里 ， 


需要 


言 息 。 这 个 过 程 会 在 每 次 再 夫 


E。 本 章 后 纺 


key .deserializer 和 value.deserializer 。 


第 1 个 属性 bootstrap.servers 指 


与 在 KafkaProducer 
另外 两 个 属性 key.deserializer 和 value.deserializer 与 生产 者 的 
serializer 定义 也 很 类 似 ， 不 过 它们 不 是 使 用 指定 的 类 把 Java 对 象 转 成 字 节 


数组 ， 而 是 使 用 指定 的 类 把 字 节 数组 
第 4 个 属性 group ,id 不 是 必需 的 ， 不 过 我 们 现在 姑 | 


的 用 途 


定 了 Kafka 
是 一 样 的 ， 可 以 参考 第 


转 成 Java 对 象 。 


卖 部 分 会 深入 讨论 所 有 的 属 
我 们 只 需要 使 用 3 个 必要 的 属性 : bootstrap.servers、 


衡 时 重复 发 生 -。 


咎 。 


T 


集群 的 连接 字符 串 。 它 的 用 途 
3 章 了 解 它 的 详细 定义 。 


日 认为 它 是 必需 的 。 它 指定 


了 Kafkaconsumer 属于 哪 一 个 消费 者 群 组 。 创 建 不 属 
也 是 可 以 的 ， 只 是 这 样 做 不 太 常 见 ， 在 本 书 的 大 部 分 章节 ， 
属于 某 个 群 组 有 的。 


任何 一 个 群 组 的 消费 者 
我 们 都 假设 消费 者 是 


下 面 的 代码 片段 演示 了 如 何 创 建 一 个 Kafkaconsumer 对 象 : 


Properties props = new Properties(); 


props.put("bootstrap.servers", 


props.put("group.id", 


"CountryCounter"); 


"broker1:9092,broker2:9092"); 


props.put("key.deserializer", 
"org.apache.kafka.common.serialization.StringDeserializer"); 

props.put("value.deserializer", 
"org.apache.kafka.common.serialization.StringDeserializer"); 


KafkaConsumer<String, String> consumer = new KafkaConsumer<String, 
String>(props); 


如 果 在 第 3 章 看 过 如 何 创建 生产 者 ， 就 应 该 很 熟悉 上 面 的 这 段 代 码 。 我 们 假设 消 
费 的 键 和 值 都 是 字符 串 类 型 ， 所 以 使 用 的 是 内 置 的 StringDeserializer ,3 
且 使 用 字符 串 类 型 创建 了 KafkaCconsumer 对 象 。 唯 一 不 同 的 是 新 增 ] 

group .id 属性 ， 它 指定 了 消费 者 所 属 群 组 的 名 字 。 


4.3 订阅 主题 


创建 好 消费 者 之 后 ， 下 一 步 可 以 开始 订阅 主题 了 。subscribe( ) 方法 接受 一 个 
主题 列表 作为 参数 ， 使 用 起 来 很 简单 : 


consumer .subscribe(Collections.singletonList("customerCountries")); @ 


@ 为 了 人 简单 起 见 ， 我 们 创建 了 一 个 只 包含 单个 元 素 的 列表 ， 主 题 的 名 字 叫 

作 “customer Countries”。 

我 们 也 可 以 在 调用 subscribe( ) 方法 时 传 入 一 个 正则 表达 式 。 正 则 表达 式 可 以 
匹配 多 个 主题 ， 如 果 有 人 创建 了 新 的 主题 ， 并 且 主 题 的 名 字 与 正则 表达 式 匹 配 ， 
那么 会 立即 触发 一 次 再 均衡 ， 消费 者 就 可 以 读 取 新 添加 的 主题 。 如 果 应 用 程序 需 
要 读 取 多 个 主题 ， 并 且 可 以 处 理 不 同类 型 的 数据 ， 那 么 这 种 订阅 方式 就 很 管用 。 
在 ee 统 之 间 复 制 数 据 时 ， 使 用 正则 表达 式 的 方式 订阅 多 个 主题 是 很 
党 法 。 


要 订阅 所 有 与 test 相关 的 主题 ， 可 以 这 样 做 : 


consumer ,Subscribe("test.*")， 


4.4 轮 询 


消息 轮 询 是 消费 者 API 的 核心 ， 通 过 一 个 简单 的 轮 询 向 服务 器 请 求 数 据 。 一 旦 消 
费 者 订阅 了 主题 ， 轮 询 就 会 处 理 所 有 的 细节 ， 包 括 群 组 协调 、 分 区 再 均衡 、 发 送 
心跳 和 获取 数据 ， 开 发 者 只 需要 使 用 一 组 简单 的 API 来 处 理 从 分 区 返回 的 数据 。 
消费 者 代码 的 主要 部 分 如 下 所 示 : 


try { 
while (true) { @ 
ConsumerRecords<String, String> records = consumer.poll(100); © 
for (ConsumerRecord<String, String> record : records) © 


log.debug("topic = %s, partition = %s, offset = %d, customer = %s, 
country = %s\n", 
record.topic(), record.partition(), record.offset(), 
record.key(), record.value()); 


int updatedCount = 1; 
if (custCountryMap.countainsValue(record.value())) { 
updatedCount = custCountryMap.get(record.value()) + 1; 


} 
custCountryMap.put(record.value(), updatedCount) 


JSONObject json = new JSONObject(custCountryMap); 
System.out.println(json.toString(4)) @ 
} 


} 
} finally { 
consumer .close(); © 


Ee 
. 
人 
类 
CS， 


@ 这 是 一 个 无 限 循 环 。 消 费 者 实际 上 古 一 个 长 期 运行 的 应 用 程序 ， 它 
询 向 Kafka 请 求 数据 。 稍 后 我 们 会 介绍 如 何 退 出 循环 ， 并 关闭 消费 者 。 


一 行 代 码 非 常 重 要 a 样 ， 消 费 者 必须 持续 对 
Kafka 进行 轮 询 ， 否 则 会 被 认为 已 经 死亡 ， 它 的 分 区 会 被 移交 给 群 组 里 的 其 他 消 
费 者 。 传 给 po1L11() 方法 的 参数 是 一 个 超时 时 间 ， 用 于 控制 polL1( ) 方法 的 阻塞 
时 间 〈 在 消费 者 的 缓冲 区 里 没有 可 用 数据 时 会 发 生 阻 塞 ) 。 如 果 该 参数 被 设 为 
0，pol1() 会 立即 返回 ， 否 则 它 会 在 指定 的 毫秒 数 内 一 直 等 待 broker 返回 数 
据 。 


@ po11( ) 方法 返回 一 个 记录 列表 。 每 条 记录 都 包含 了 记录 所 属 主题 的 信息 、 
录 所 在 分 区 的 信息 、 记 录 在 分 区 里 的 偏 移 量 ， 以 及 记录 的 键 值 对 。 我 们 一 般 会 

历 这 个 列表 ， 逐 条 处 理 这 些 记录 。 poll( ) 方法 有 一 个 超时 参数 ， 这 
在 多 久之 后 可 以 返回 ， 不管 有 没有 可 用 的 数据 都 要 返回 。 超时 时 间 有 的 设 瘟 到 决 了 
0 比如 要 在 多 长 时 间 内 把 控制 权 归 还 给 执行 轮 询 的 线 


Le] 


© 把 络 采 保存 起 来 或 者 对 已 有 的 记录 进行 更 新 ， 处 理 过 程 也 随 之 结束 。 在 这 里 ， 
， 目的 是 统计 来 自 各 个 地 方 的 客户 数量 ， 所 以 使 用 了 一 个 散 列表 来 保存 结 
2 es JSON 的 格式 打印 结果 。 。 在 真实 场景 里 ， 结 果 一 般 会 被 保存 到 数据 存储 


@ 在 退出 应 用 程序 之 前 使 用 close( ) 方法 关闭 消费 者 。 网 络 连 接 和 socket 也 会 
随 之 关闭 ， 并 立即 触发 一 次 再 均衡 ， 而 不 是 等 竺 群 组 协调 器 发 现 它 不 再 发 送 心 跳 
“0 因为 那样 需要 更 长 的 时 间 ， 导 致 整个 群 组 在 一 段 时 间 内 无 法 读 
消息 


轮 询 不 只 是 获取 数据 那么 简单 。 在 第 一 次 调用 新 消费 者 的 pol1( ) 廊 法 时 ， 它 会 
负责 查找 GroupCoordinator ， 然 后 加 入 群 组 ， 接 受 分 配 的 分 区 。 如 果 发 生 了 再 
均衡 ， 整个 过 程 也 是 在 轮 询 期 间 进 行 的 。 当然 ， 心 跳 也 是 从 轮 询 里 发 送出 去 的 。 
所 以 ， 我 们 要 确保 在 轮 询 期 间 所 做 的 任何 处 理工 作 都 应 该 尽快 完成 。 


® 线程 安全 


在 同一 个 群 组 里 ， 我 们 无 法 让 一 个 线程 运行 多 个 消费 者 ， 也 无 法 让 多 个 线程 
安全 地 共享 个 消费 者 。 按照 规则 ， 一 个 消费 者 使 用 一 个 线程 。 如 果 要 在 同 
个 消费 者 群 组 里 运行 多 个 消费 者 ， 需 要 让 每 个 消费 者 运行 在 自己 的 线程 

里 。 最 好 是 把 消费 者 的 逻辑 封装 在 自己 的 对 象 里 ， 然 后 使 用 Java 的 
ExecutorService 启动 多 个 线程 ， 使 每 个 消费 者 运行 在 自己 的 线程 上 。 
Confluent 的 博客 (https: Wk confluent.io/blog/ ) 上 有 一 个 教程 介绍 如 何 处 
理 这 种 情况 。 


4.5 消费 者 的 配置 


到 目前 为 止 ， 我 们 学 习 了 如 何 使 用 消费 者 API， 不 过 只 介绍 了 几 个 配置 属性 
bootstrap. servers 、 group.id 、key.deserializer 和 
value.deserializer 。Kafka 的 文档 列 出 了 所 有 与 消费 者 相关 的 配置 说 明 。 
大 部 分 参数 都 有 合理 的 默认 值 ， 一 般 不 需要 修改 它们 ， 不 过 有 一 些 参 数 与 消费 者 
的 性 能 和 可 用 性 有 很 大 关系 。 接 下 来 介绍 这 些 重 要 的 属性 。 


01. fetch.min.bytes 


该 属性 指定 了 消费 者 从 服务 器 获取 记录 的 最 小 字 节 数 。broker 在 收 到 消费 者 
的 数据 请 求 时 ， 如 果 可 用 的 数据 量 小 于 fetch .min.bytes 指定 的 大 小 ， 

那么 它 会 等 到 有 足够 的 可 用 数据 时 才 把 它 返回 给 消费 者 。 这 样 可 以 降低 消费 
者 和 ne 的 工作 负载 ， 因 为 它们 在 主题 不 是 很 活跃 的 时 候 (或 者 一 天 里 的 
低谷 时 段 }) 就 不 需要 来 来 回回 地 处 理 消 息 。 如 果 没 有 很 多 可 用 数据 ， 但 消费 
者 的 CPU 使 用 率 却 很 高 ， 那 么 就 需要 把 该 属 性 的 值 设 得 比 默 认 值 大 。 如 果 


02. 


03. 


04. 


， 把 该 属性 的 值 设 置 得 大 一 点 可 以 降低 broker 的 工作 负 
载 。 
fetch.max.wait.ms 


我 们 通过 fetch ,min.bytes 告诉 Kafka， 等 到 有 足够 的 数据 时 才 把 它 返 回 
给 消费 者 。 而 feth ,max,wait ,ms 则 用 于 指定 broker 的 等 竺 时间， 默认 是 
500ms。 如 果 没 有 足够 的 数据 流入 Kafka， 消 费 者 获取 最 小 数据 量 的 要 求 束 得 
不 到 满足 ， 最 终 导致 500ms 的 延迟 。 如 果 要 降低 潜在 的 延迟 (为 了 满足 
SLA) ， 可 以 把 该 参数 值 设置 得 小 一 些 。 如 果 fetch.max.wait.ms 被 设 
为 100ms， 并 且 fetch .min.bytes 被 设 为 1MB， 那 么 Kafka 在 收 到 消费 
者 的 请 求 后 ， 要 么 返回 1MB 数据 ， 要 么 在 100ms 后 返回 所 有 可 用 的 数据 ， 
就 看 哪个 条 件 先 得 到 满足 。 


max.partition.fetch.bytes 


该 属性 指定 了 服务 器 从 每 个 分 区 里 返回 给 消费 者 的 最 大 字 节 数 。 它 的 默认 值 
是 1MB， 也 就 是 说 ，Kafkaconsumer .poll( ) 方法 从 每 个 分 区 里 返回 的 
记录 最 多 不 超过 max .partition .fetch.bytes 指定 的 字 节 。 如 果 一 个 
主题 有 20 个 分 区 和 5 个 消费 者 ， 那 么 每 个 消费 者 需要 至 少 4MB 的 可 用 内 存 
来 接收 记录 。 在 为 消费 者 分 配 内 存 时 ， 可 以 给 它们 多 分 配 一 些 ， 因 为 如 果 群 
组 里 有 消费 者 发 生 朋 演 ， 剩 下 的 消费 痢 需 要 处 理 更 多 的 分 让 区 。 
max.partition.fetch.bytes 的 值 必须 比 broker 外 E 够 接收 的 最 大 浓 居 的 

字 节 数 (通过 max.message.size 属性 配置 ) 大 ， 否 则 消费 者 可 能 无 法 读 
取 这 些 消 息 ， 导 致 消费 者 一 直 挂 起 重 试 。 在 设置 该 属性 时 ， 另 一 个 需要 考虑 
的 因素 是 消费 者 处 理 数据 的 时 间 。 消 费 者 需要 频繁 调用 po1L1( ) 方法 来 避免 
会 话 过 期 和 发 生 分 区 再 均衡 ， 如 果 单 次 调用 pol1( ) 返回 的 数据 太 多 ， 消 费 
者 需要 更 多 的 时 间 来 处 理 ， 可 能 无 法 及 时 进行 下 一 个 轮 询 来 避免 会 话 过 期 。 
如 果 出 现 这 种 情况 ， 可 以 把 max,.partition,fetch,bytes 值 改 小 ,或 
者 延长 会 话 过 期 时 间 。 


session.timeout.ms 


该 属 性 指定 了 消费 者 在 被 认为 死亡 之 前 可 以 与 服务 器 断 开 连接 的 时 间 ， 默 认 
全 3s。 如 果 消 费 者 没有 在 session .timeout ,ms 指定 的 时 间 内 发 送 心跳 
给 群 组 协调 器 ， 就 被 认为 已 经 死亡 ， 协 调 器 就 会 触发 再 均衡 ， 把 它 的 分 区 分 
配给 群 组 里 的 其 他 消费 者 。 该 属性 与 heartbeat.interval.ms 紧密 相 
关 。heartbeat .interval.ms 指定 了 poll( ) 方法 向 协调 器 发送， 心跳 的 

频率 ，session,timeout .ms 则 指定 了 消费 者 可 以 多 久 不 发 送 心 跳 。 所 
以 ， 一般 需 要 同时 修改 这 两 个 属性 ，heartbeat .interval.ms 必须 比 
session.timeout .ms 小 ， 一 般 是 session,timeout .ms 的 三 分 之 一 。 
如 果 session.timeout .ms 是 3s， 那 么 heartbeat .interval.ms 应 
该 是 1s。 把 session,timeout,.ms 值 设 得 比 默认 值 小 ， 可 以 更 快 地 检测 


et 


05. 


06. 


07. 


和 恢复 衣 溃 的 节点 ， 不 过 长 时 间 的 轮 询 或 垃圾 收集 可 能 导致 非 预期 的 再 均 


衡 。 


把 该 属性 的 值 设置 得 大 一 些 ， 


溃 需 要 更 长 的 时 间 。 


auto.offset.reset 


该 属性 指定 了 消费 者 在 读 取 


可 以 减少 意外 的 再 均衡 ， 


不 过 检测 节点 月 


理 。 它 的 默认 值 是 latest ， 意 思 是 说 ， 在 偏 移 量 无 效 的 情况 下 ， 消 
读 取 数据 (在 消费 者 启动 之 后 生成 的 记录 ， 


从 最 新 的 记录 开始 i 


( 因 消 费 者 长 时 间 失 效 ， 包 含 偏 移 量 


个 没有 偏 移 量 的 分 


又 或 者 偏 移 量 无 效 的 情况 下 


量 的 记录 已 经 过 时 并 被 删除 ) 该 作 何 处 


费 者 将 


一 个 全 是 


earliest ， 章 思 是 说 ， 在 偏 移 量 无 效 的 情况 下 ， 消 费 者 将 从 起 始 位 置 读 取 
分 区 的 记录 。 

enable.auto.commit 

我 们 稍 后 将 介绍 几 种 不 同 的 提交 偏 移 量 的 方式 。 该 属性 指定 了 消费 者 是 否 上 自 
动 提 交 偏 移 量 ， 默 认 值 是 true 。 为 了 尽量 避免 出 现 重 复数 据 和 数据 丢失 ， 
可 以 把 它 设 为 false ， 由 自己 控制 何 时 提交 偏 移 量 。 如 果 把 它 设 为 true ， 
还 可 以 通过 配置 auto .commit .interval.ms 属性 来 控制 提交 的 频率 。 


partition.assignment.strategy 


我 们 知道 ， 分 区 


会 被 分 配给 群 组 里 的 消 


给 定 的 消费 者 和 主题 ， 


口 
个 默认 的 分 


Range 


该 策略 会 把 主题 的 若 
本 并 且 每 个 主题 有 3 个 分 区 。 那 和 


一 < 


配 策略 。 


决定 哪些 分 


费 者 。PartitionAssignor 根据 
区 应 该 被 分 配给 哪个 消费 者 。 


Kafka 有 两 


续 的 分 


蔡 
忆 


这 两 个 主题 的 分 六 区 
立 完 成 的 ， 第 | 


2.3 


消费 者 Cl 有 可 能 分 配 到 这 两 个 主题 的 分 


因为 每 个 主题 拥有 奇 


个 消费 者 最 后 分 配 到 比 第 


了 Range 策略 ， 而 且 分 区 数量 无 法 


RoundRobin 


该 策略 把 主题 的 所 有 分 区 逐个 
费 者 C1 和 消 
分 区 0 和 分 区 2 以 及 主题 T2 的 分 


略 来 给 消 


区 0 和 分 


被 消费 者 数量 整除 ， 


分 配给 消费 者 。 假 设 消费 者 C1 和 


区 1， 而 消费 者 C2 分 配 到 

数 个 分 区 ， 而 分 配 是 在 主题 内 独 
二 个 消费 考 更 多 的 分 区 。 只 要 使 用 
就 会 出 现 这 种 情况 。 


分 配给 消费 者 。 如 有 果 使 用 RoundRobin 策 


费 者 C2 分 本 > 区， 那么 消费 者 C1 将 分 到 主题 T1 的 


区 1， 消 费 者 C2 将 分 配 到 主题 T1 的 分 


区 1 


以 及 主题 T2 的 分 区 0 和 分 区 2。 一 般 来 说 ， 如 果 所 有 消费 者 都 订阅 相同 的 至 


题 (这 种 情况 很 常 


见 ) 


，RoundRobin 策略 会 多 


区 (或 最 多 就 差 一 个 分 区 ) 。 


人 台所 有 消费 者 分 配 相同 数量 的 分 


可 以 通过 设置 partition,assignment.strategy 来 选择 分 区 策略 。 默 


三 | 
证 


认 使 用 的 


org.apache.kafka.clients.consumer.RangeAssignor 


实现 了 Range 策略 ， 不 过 也 可 以 把 它 改 成 


org.apache.kafka.clients.consumer.RoundRobinAssignor 。 


， 这 个 类 


我 们 还 可 以 使 用 自 定 义 策 略 ， 在 这 种 情况 下 ， 
partition.assignment.strategy 属性 的 值 就 是 自 定义 类 的 名 字 。 

08. client.id 
该 属性 可 以 是 任意 字符 串 ，broker 用 它 来 标识 从 客户 端 发 送 过 来 的 消息 ， 通 
常 被 用 在 日 志 、 上 度量 指标 和 配额 里 。 

09. max.poll.records 
该 属性 用 于 控制 单 次 调用 call( ) 方法 能 够 返回 的 记录 数量 ， 可 以 帮 你 控制 


在 轮 询 


里 需要 


处 理 的 数据 量 。 


10. receive.bufferbytes 和 send.bufferbytes 
socket 在 读 写 数据 时 用 到 的 TCP 缓冲 区 也 可 以 设置 大 小 。 如 果 它 们 被 设 为 


-1,， 


Ct 
i 


i、 内 ， 


就 使 用 操作 系统 的 默认 值 。 如 果 生 产 者 或 消费 者 与 broker 处 
可 以 适当 增 大 这 些 值 ， 


因为 跨 数 据 


延迟 和 比较 低 的 带宽 。 


4.6 ”提交 和 偏 移 量 


每 次 调用 pol1l( ) 方法 ， 


过 的 记录 ， 我 们 
EE 


置 ( 偏 移 量 ) 


马 总 


因此 可 以 追踪 到 


是 返回 | 
哪些 记 孙 是 被 群 组 里 的 哪个 ; 
圣 讨论 过 ，Kafka 不 会 像 其 他 JMS 队列 那样 需要 得 到 消费 者 的 确认 ， 这 是 


生产 者 写 入 Kafka 但 i 


于 不 同 的 数 
心 的 网 络 一 般 都 有 比较 高 的 


还 没有 被 消费 者 读 取 


Kafka 条 一 个 独特 之 处 ， 相反 ， 消 费 者 可 以 使 用 Kafka 来 追踪 


我 们 把 更 新 分 区 当前 位 置 的 操作 叫 作 提 交 。 


0 


这 兰 生 如何 提 交合 移 : 
消息 


量 的 呢 ? 消 


首 费 者 读 取 的 。 之 前 


肖 息 在 分 区 里 的 位 


费 者 往 一 个 叫 作 _consumer_offset 的 


\ 里 包含 每 个 分 区 的 偏 移 量 


那么 偏 移 
加 入 群 组 . 


时 就 没 有 作 么 用 允 不 过 ， 
就 会 触发 再 均衡 ， 
而 不 是 之 前 处 理 的 那个 。 


元 成 再 均衡 之 后 ， 
为 了 能 


多 继续 之 前 的 工作 ， ? 


量 。 如 果 消 


费 者 


如 果 汶 


民风 
时 费 者 发 生 朋 尝 或 者 有 新 的 消 


每 个 消 


- 


次 提交 的 侦 移 上 


三 
量 ， 然 后 


Ss/ 


从 偏 移 量 


指定 的 地 方 继 续 处 理 。 


费 者 可 能 分 配 到 新 的 分 
消费 者 需要 读 取 每 个 分 


如 有 果 提 交 的 偏 移 量 小 于 客户 端 处 理 的 最 后 一 个 消息 的 偏 移 量 ， 那 么 处 于 两 个 偏 移 
量 之 间 的 消息 束 会 被 重复 处 理 ， 如 图 4-6 所 示 。 


正在 处 理 的 事件 


这 些 事件 在 进行 再 均衡 时 会 
被 重新 处 理 ， 导 致 重复 


上 一 次 轮 询 

上 一 次 提交 的 偏 移 量 返回 的 事件 

图 4-6: 提交 的 偏 移 量 小 于 客户 端 处 理 的 最 后 一 个 消息 的 偏 移 量 
如 采 提 交 的 偏 移 量 大 于 客户 端 处 理 的 最 后 一 个 消息 的 偏 移 量 ， 那 么 处 于 两 个 偏 移 


量 之 间 的 消息 将 会 丢失 ， 如 图 4-7 所 示 。 
正在 处 理 的 事件 


上 一 次 轮 询 
返回 的 事件 


这 些 事件 在 进行 
骨 均 衡 时 会 丢失 
上 一 次 提交 的 偏 移 量 
图 4-7: 提交 的 偏 移 量 大 于 客户 端 处 理 的 最 后 一 个 消息 的 偏 移 量 
所 以 ， 处 理 偏 移 量 的 方式 对 客户 端 会 有 很 大 的 影响 。 


KafkaConsumer API 提供 了 很 多 种 方式 来 提交 偏 移 量 。 


4.6.1 ”自动 提交 


最 简单 的 提交 方式 是 计 消 费 者 自动 提交 偏 移 量 。 如 果 enable .auto.commit 被 

设 为 true ， 那 么 每 过 5s， 消 费 者 会 自动 把 从 po11( ) 方法 接收 到 的 最 大 偏 移 量 

提交 上 去 。 提交 时 司 间隔 由 auto .commit .interval.ms 控制 ， 默 认 值 是 

5s。 与 消费 者 里 的 其 他 东西 一 样 ， 自 动 提交 也 是 在 轮 询 里 进行 的 。 消 费 者 每 次 在 

人 量 了 ， 如 果 是 ， 那 么 就 会 提交 从 上 一 次 轮 询 返 
家 移 量 。 


不 过 ， 在 使 用 这 种 简便 的 方式 之 前 ， 需 要 知道 它 将 会 带 来 怎样 的 结果 。 


假设 我 们 仍然 使 用 默认 的 5s 提交 时 间 间 隔 ， 在 最 近 一 次 提交 之 后 的 3s 发 生 了 再 
均衡 ， 再 均衡 之 后 ， 消 费 者 从 最 后 一 次 提交 的 侦 移 量 位 置 开 始 读 取消 轧 。 这 个 时 
候 偏 移 量 已 经 落后 了 3s， 所 以 在 这 3s 内 到 达 的 消息 会 被 重复 处 理 。 可 以 通过 修 
改 提 交 时 间 间 隔 来 更 频繁 地 提交 偏 移 量 ， 减 小 可 能 出 现 重复 消息 的 时 间 窗 ， 不 过 
这 种 情况 是 无 法 完全 避免 的 。 


在 使 用 自动 提交 时 ， ou 测 方 法 都 会 所 上 一 次 调用 返回 的 偏 移 量 提交 上 
去 ， 它 并 不 知道 具体 哪些 消息 已 经 被 处 理 了 ， 所 以 在 再 次 调用 之 前 最 好 确保 所 有 
当前 调用 监 四 的 消息 都 己 经 处 更 完 毕 (在 调用 close( ) 方法 之 前 也 会 进行 自动 
。 一般 情况 下 不 会 有 什么 问题 ， 不 过 在 处 理 异常 或 提前 退出 轮 询 时 要 格外 
人 小心 。 


昌 动 提交 虽然 方便 ， 不 过 并 没有 为 开发 者 留 有 余地 来 避免 重复 处 理 消息 。 


4.6.2 ”提交 当前 偏 移 量 


大 部 分 开发 者 通过 控制 偏 移 量 提交 时 间 来 消除 丢失 消息 的 可 能 性 ， 并 在 发 生 再 均 
淆 时 减少 重复 消息 的 数量 。 消 费 首 API 提供 了 另 种 提交 偏 移 量 的 方式 ， 开 发 者 
可 以 在 必要 的 时 候 提交 当前 偏 移 量 ， 而 不 是 基于 时 间 间 隔 。 


把 auto.commit .offset 设 为 false ， 让 应 用 程序 决定 何 时 提交 偏 移 量 。 使 
用 commitSync( ) 提交 偏 移 量 最 简单 也 最 可 靠 。 这 个 API 会 提交 由 pol1( ) 方 
法 返回 的 最 新 偏 移 量 ， 提 交 成 功 后 马上 返回 ， 如 果 提 交 失 败 就 抛 出 异常 。 


要 记 住 ，commitSync() 将 会 提交 由 pol11( ) 返回 的 最 新 偏 移 量 ， 所 以 在 处 理 

完 所 有 记录 后 要 确保 调用 了 commitSync() ， 否 则 还 是 会 有 丢失 消息 的 风险 。 

0 从 最 近 批 消 息 到 发 生 青 均衡 之 间 的 所 有 消 息 都 将 被 重复 处 
理 。 


下 面 是 我 们 在 处 理 完 最 近 一 批 消息 后 使 用 commitSync( ) 方法 提交 偏 移 量 的 例 
= 


这 


while (true) { 
ConsumerRecords<String, String> records = consumer .pol1(100 ) ; 
for (ConsumerRecord<String, String> record : records) 


System.out.printf("topic = %s, partition = %s, 
%d, customer = %s, country = %s\n", 

record.topic(), record.partition(), 

record.offset(), record.key(), 


} 
try { 
consumer .commitSync(); © 
} catch (CommitFailedException e) { 
log.error("commit failed", e) © 


offset 


record.value()); @ 


@ 我 们 假设 把 记录 内 容 打 印 出 来 束 算 处 理 完 毕 ， 


] 文 这 个 


应 用 程序 根据 具体 的 使 


用 场景 来 决定 的 。 


@ 处 理 完 当 前 批 次 的 消息 ， 在 轮 询 更 多 的 消息 之 前 ， 
提交 当前 批 次 最 新 的 偏 移 量 


调用 commitSync( ) 方法 


@ 只 要 没有 发 生 不 可 恢复 的 错误 ，commitSync( ) 方法 会 一 直 党 试 直至 提交 成 
功 。 如 果 提 交 失 败 ， 我 们 也 只 能 把 异常 记录 到 错误 日 志 里 。 

4.6.3 ”异步 提交 

手动 提交 有 一 个 不 足 之 处 ， 在 broker 对 提交 请 求 作出 回应 之 前 ， 应 用 程序 会 
阻塞 ， 这 样 会 限制 应 用 程序 的 吞吐 量 。 我 们 可 以 通过 降低 提交 频率 来 提升 吞吐 
量 ， 但 如 果 发 生 了 再 均衡 ， 会 增加 重复 消息 的 数量 。 

和 个 时 候 可 以 使 用 异步 提交 API。 我 们 只 管 发 送 提交 请 求 ， 无 需 等 待 broker 的 响 
NA O 


while (true) { 
ConsumerRecords<String, String> records = consumer .poll(100); 


for (ConsumerRecord<String, String> record : records) 
{ 
System.out.printf("topic = %s, partition = %s, 
offset = %d, customer = %s, country = %s\n", 
record.topic(), record.partition(), record.offset(), 
record.key(), record.value()); 
} 
consumer .commitAsync(); @ 
} 
@ 提交 最 后 一 个 偏 移 量 ， 然 后 继续 做 其 他 事情。 


在 成 功 提交 或 础 到 无 法 恢复 的 错误 之 前 ，commitSync( ) 会 一 直 重 试 ， 但 是 
commitAsync( ) 不 会 ， 这 也 是 commitAsync() 不 好 的 一 个 地 方 。 它 之 所 以 不 
进行 重 试 ， 是 因为 在 它 收 到 服务 器 响应 的 时 候 ， 可 能 有 一 个 更 大 的 偏 移 量 已 经 提 
交 成 功 。 假 设 我 们 发 出 一 个 请 求 用 于 提交 偏 移 量 2000， 这 个 时 候 发 生 了 短暂 的 通 
信 间 题 ， 服 务 器 收 不 到 请 求 ， 自 然 也 不 会 作出 任何 啊 应 。 与 此 同时 ， 我 们 处 理 了 
另外 一 批 消 息 ， 并 成 功 提 交 了 偏 移 量 3000。 如 果 commitAsync( ) 重新 尝试 提 
交 偏 移 量 2000， 它 有 可 能 在 偏 移 量 3000 之 后 提交 成 功 。 这 个 时 候 如 果 发 生 再 均 
衡 ， 就 会 出 现 重 复 消 息 。 


我 们 之 所 以 提 到 这 个 问题 的 复杂 性 和 提交 顺序 的 重要 性 ， 是 因为 
commitAsync( ) 也 支持 回调 ， 在 broker 作出 响应 时 会 执行 回调 。 台 调 经 名 被 用 
交错 误 或 生成 度量 指标 ， 不 过 如 果 你 要 用 它 来 进行 重 试 ， 一定 要 注意 提 
交 的 顺 友 。 


到 


while (true) { 
ConsumerRecords<String, String> records = consumer.poll(100); 
for (ConsumerRecord<String, String> record : records) { 
System.out.printf("topic = %s, partition = %s, 
offset = %d, customer = %s, country = %s\n", 
record.topic(), record.partition(), record.offset(), 
record.key(), record.value()); 


consumer .commitAsync(new OffsetCommitCallback() { 
public void onComplete(Map<TopicPartition, 


OffsetAndMetadata> offsets, Exception e) { 
if (e != null) 
log.error("Commit failed for offsets {}", offsets, e); 


3 卖 做 其 他 事情 ， 如 采 提 交 失败 ， 错 误 信息 和 偏 移 量 会 被 记 


® 重 试 异步 提交 


我 们 可 以 使 用 一 个 单调 递增 的 序列 号 来 维护 异步 提交 的 顺序 。 在 每 次 提交 全 
移 量 之 后 或 在 回调 里 提交 偏 移 量 时 递增 序列 号 。 在 进行 重 试 前 ， 先 检查 回调 
的 序列 号 和 即将 提交 的 偏 移 量 是 否 相 等 ， 如 果 相 等 ， 说 明 没有 新 的 提交 ， 屠 
么 可 以 安全 地 进行 重 试 。 如 果 序 列 号 比较 大 ， 说 明 有 一 个 新 的 提交 已 经 发 送 
出 去 了 ， 应 该 停止 重 试 。 


4.6.4 同步 和 异步 组 合 提交 


一 般 情况 下 ， 针对 偶尔 出 现 的 提交 失败， 不 进行 重 试 不 会 有 太 大 问题 ， 因 为 如 采 
提交 失败 是 因为 临时 间 题 导致 的 ， 那 么 后 续 的 提交 总 会 有 成 功 的 。 但 如 果 这 是 发 
生 在 关闭 消费 者 或 再 均衡 前 的 最 后 一 次 提交 ， 就 要 确保 能 够 提交 成 功 。 


因此 ， 在 消费 者 关闭 前 一 般 会 组 合 使 用 commitAsync() 和 commitSsync()。 
〈 后 面 讲 到 再 均衡 监听 器 时 ， 我 们 会 讨论 如 何在 发 生 再 均衡 
1 提交 仿 移 量 


try { 
while (true) { 
ConsumerRecords<String, String> records = consumer .poll(100); 
for (ConsumerRecord<String, String> record : records) { 
System.out.println("topic = %s, partition = %s, offset = %d, 
customer = %s, country = %s\n", 
record.topic(), record.partition(), 
record.offset(), record.key(), record.value()); 
} 


consumer .commitAsync(); @ 


} 
} catch (Exception e) { 
log.error("Unexpected error", e); 
} finally { 
try { 
consumer .commitSync(); © 
} finally { 


consumer .close( ); 
} 
} 


@ 如 果 一 切 正常 ， 我 们 使 用 commitAsync( ) 方法 来 提交 。 这 样 速度 更 快 ， 而 
且 即 使 这 次 提交 和 失败， 下 一 次 提交 很 可 能 会 成 功 。 


@ 如 果 直 接 关 闭 消费 者 ， 就 没有 所 谓 的 “下 一 次 提交 ”了 。 使 用 commitSync() 
方法 会 一 直 重 试 ， 直 到 提交 成 功 或 发 生 无 法 恢复 的 错误 。 


4.6.5 ”提交 特定 的 偏 移 量 


提交 偏 移 量 的 频率 与 处 理 消息 批 次 的 频率 是 一 样 的 。 但 如 果 想 要 更 频繁 地 提交 该 
怎么 办 ? 如 果 pol1l( ) 方法 返回 一 大 批 数据 ， 为 了 避免 因 再 均衡 引起 的 重复 处 理 
整 批 消息 ， 想 要 在 批 次 中 间 提 交 偏 移 量 该 怎么 办 ? 这 种 情况 无 法 通过 调用 
commitSync() 或 commitAsync( ) 来 实现 ， 因 为 它们 只 会 提交 最 后 一 个 偏 移 
量 ， 而 此 时 该 批 次 里 的 消息 还 没有 处 理 完 。 


幸运 的 是 ， 消 费 者 API 允许 在 调用 commitSync( ) 和 commitAsync( ) 方法 时 
传 进 去 希望 提交 的 分 区 和 偏 移 量 的 map。 假 设 你 处 理 了 半 个 批 次 的 消息 ， 最 后 一 
个 来 自主 题 “customers” 分 区 3 的 消息 的 偏 移 量 是 5000， 你 可 以 调用 


commitSync () 方法 来 提交 它 。 不 过 ， 因 为 消费 者 可 能 不 只 读 取 一 个 分 区 ， 你 
需要 跟踪 所 有 分 区 的 偏 移 量 ， 所 以 在 这 个 层面 上 控制 偏 移 量 的 提交 会 让 代码 变 复 


杂 “。 


下 面 是 提交 特定 偏 移 量 的 例子 : 


private Map<TopicPartition, OffsetAndMetadata> currentoffsets = 


new HashMap<>(); 种 
int count = 0; 


while (true) { 
ConsumerRecords<String, String> records = consumer .poll(100); 
for (ConsumerRecord<String, String> record : records) 
{ 
System.out.printf("topic = %s, partition = %s, offset = %d, 
customer = %s, country = %s\n", 
record.topic(), record.partition(), record.offset(), 


record.key(), record.value()); © 
currentoffsets.put(new TopicPpartition(record.topic(), 
record.partition()), new 
offsetAndMetadata(record.offset()+1, "no metadata")); © 
if (count % 1000 == 0) @ 

consumer .commitAsync(currentoffsets,null); © 
COUnt++， 


@ 用 于 跟踪 偏 移 量 的 map。 
@ 记 住 ，printf 只 是 处 理 消息 的 临时 方案 。 


人 在 读 取 每 条 记录 之 后 ， 使 用 期 望 处 理 的 下 一 个 消息 的 偏 移 量 更 新 map 里 的 偏 移 
有 。 下 一 次 就 从 这 里 开始 读 取消 息 。 


@ 我 们 决定 每 处 理 1000 条 记录 就 提交 一 次 偏 移 量 。 在 实际 应 用 中 ， 你 可 以 根据 
时 间或 记录 的 内 容 进行 提交 。 


电 


© 这 里 调用 的 是 commitAsync() ， 不 过 调用 commitSync( ) 也 是 完全 可 以 
的 。 当 然 ， 在 提交 特定 偏 移 量 时 ， 仍然 要 处 理 可 外 发生 的 错误 。 


4.7 ”再 均衡 监听 器 


在 节 中 提 到 过 ， 消 费 者 在 退出 和 进行 分 区 再 均衡 之 前 ， 会 做 一 些 清 
理工 


曙 


你 会 在 消费 者 失去 对 一 个 分 区 的 所 有 权 之 前 提交 最 后 一 个 已 处 理 记 录 的 偏 移 量 。 
如 果 消 费 者 准备 了 一 个 缓冲 区 用 于 处 理 偶发 的 事件 ， 那 么 在 失去 分 区 所 有 权 之 
前 ， 需 要 处 理 在 缓冲 区 累积 下 来 的 记录 。 你 可 能 还 需要 关闭 文件 句柄 、 数 据 库 连 


接 等 。 


在 为 消费 者 分 配 新 分 区 或 移 除 旧 分 区 时 ， 可 以 通过 消费 者 API 执行 一 些 应 用 程序 
代码 ， 在 调用 subscribe( ) 方法 时 传 进去 一 个 
ConsumerRebalanceListener 实例 就 可 以 了 。 
ConsumerRebalanceListener 有 两 个 需要 实现 的 方法 。 


(1) public void 
onPartitionsRevoked(Collection<TopicPartition> partitions) 
方法 会 在 再 均衡 开始 之 前 和 消费 者 停止 读 取消 息 之 后 被 调用 。 如 果 在 这 里 提交 偏 
移 量 ， 下 一 个 接管 分 区 的 消费 者 吏 知 道 该 从 哪里 开始 读 取 了 。 


(2) public void 
onPartitionsAssigned(Collection<TopicPartition> partitions) 
方法 会 在 重新 分 配 分 区 之 后 和 消费 者 开始 读 取消 息 之 前 被 调用 。 


下 面 的 例子 将 演示 如 何在 失去 分 区 所 有 权 之 前 通过 onPartitionsRevoked() 
方法 来 提交 偏 移 量 。 在 下 一 节 ， 我 们 会 演示 另 一 个 同时 使 用 了 
onPartitionsAssigned() 方法 的 例子 。 


private Map<TopicPartition, OffsetAndMetadata> currentoffsets= 
new HashMap<>(); 


private class HandleRebalance implements ConsumerRebalanceListener { @ 
public void onPartitionsAssigned(Collection<TopicPartition> 
partitions) { © 


public void onPartitionsRevoked(Collection<TopicPartition> 
partitions) { 
System.out.println("Lost partitions in rebalance. 
Committing current 
offsets:" + currentoffsets); 
consumer .commitSync(currentoffsets); © 


} 


try { 
consumer .subscribe(topics, new HandleRebalance()); @ 


while (true) { 
ConsumerRecords<String, String> records = 
consumer .poll1(100); 
for (ConsumerRecord<String, String> record : records) 


System.out.println("topic = %s, partition = %s, offset = %d, 
customer = %s, country = %s\n", 


record.topic(), record.partition(), record.offset(), 

record.key(), record.value()); 

currentoffsets.put(new Topicpartition(record.topic(), 

record.partition()), new 

offsetAndMetadata(record.offset()+1, "no metadata")); 
} 


consumer .commitAsync(currentoffsets, null); 


} catch (wakeupException e) { 
// 忽略 异常 ， 正 在 关闭 消费 者 
} catch (Exception e) { 
log.error("Unexpected error", e); 
} finally { 
try { 
consumer .commitSync(currentoffsets); 
} finally { 
consumer .close( ); 
System.out.println("Closed consumer and we are done"); 


@ 首先 实现 ConsumerRebalanceListener 接口 。 


@ 在 获得 新 分 区 后 开始 读 取消 息 ， 不 需要 做 其 他 事情 。 


日 如 采 发 生 再 均衡 ， 我 们 要 在 即将 失去 分 区 所 有 权时 提交 偏 移 量 。 要 注意 ， 提 交 
的 是 最 近 处 理 过 的 偏 移 量 ， 而 不 古 批 次 中 还 在 处 理 的 最 后 一 个 偏 移 量 。 因 为 分 区 
有 可 能 在 我 们 还 在 处 理 消息 的 时 候 被 撤回 。 我 们 要 提交 所 有 分 区 的 偏 移 量 ， 而 不 
只 是 那些 即将 失去 所 有 权 的 分 区 的 偏 移 量 一 一 因为 提交 的 偏 移 量 是 已 经 处 理 过 

的 ， 所 以 不 会 有 什么 问题 。 调 用 commitSync( ) 方法 ， 确 保 在 再 均衡 发 生 之 前 


提交 偏 移 量 。 


@ 把 ConsumerRebalanceListener 对 象 传 给 subscribe( ) 方法 ， 这 是 


重要 的 一 步 。 
4.8 ”从 特定 偏 移 量 处 开始 处 理 记录 


到 目前 为 止 ， 我 们 知道 了 如 何 使 用 poll1( ) 方法 从 各 个 分 区 的 最 新 偏 移 量 处 开始 
处 理 消息 。 不 过 ， 有 时 候 我 们 也 需要 从 特定 的 偏 移 量 处 开始 读 取消 息 。 


如 果 你 想 从 分 区 的 起 始 位 置 开始 读 取 消息 ， 或 者 直接 跳 到 分 区 的 末尾 开始 读 取 消 
息 ， 可 以 使 用 seekToBeginning(Collection<TopicPartition> tp) 和 
seekToEnd(Collection<TopicPartition> tp) 这 两 个 方法 。 


三 


| 


不 过 ，Kafka 也 为 我 们 提供 了 用 于 查找 特定 偏 移 量 的 API。 它 有 很 多 用 途 ， 比 如 
向 后 回 退 几 个 消息 或 者 向 前 跳 过 几 个 消息 (对 时 间 比 较 敏感 的 应 用 程序 在 处 理 渍 
后 的 情况 下 希望 能 够 向 前 跳 过 若干 个 消息 ) 。 在 使 用 Kafka 以 外 的 系统 来 存储 偏 
移 量 时 ， 它 将 给 我 们 带 来 更 大 的 惊喜 。 


试想 一 下 这 样 的 场景 : 应 用 程序 从 Kafka 读 取 事件 (可 能 是 网 站 的 用 户 点 击 事件 
流 ) ， 对 它们 进行 处 理 (可 能 是 使 用 自动 程 亨 清 理 点 击 操作 并 添加 会 话 信 . 岂 ) ， 
然后 把 结果 保存 到 数据 库 、 MOL 存储 引擎 或 Hadoop。 假 设 我 们 真 的 不 想 丢 失 
任何 数据 ， 也 不 想 在 数据 库 里 多 次 保存 相同 的 结果 。 


这 种 情况 下 ， 消 费 者 的 代码 可 能 是 这 样 的 : 


while (true) { 
ConsumerRecords<String, String> records = consumer .poll(100); 
for (ConsumerRecord<String, String> record : records) 


currentoffsets.put(new TopicPartition(record.topic()， 
record.partition()), 

new OffsetAndMetadata(record.offset()+1); 
processRecord(record); 


storeRecordInDB(record); 
consumer .commitAsync(currentoffsets); 


在 这 个 例子 里 ， 每 处 理 一 条 记 杂 束 提 交 一 次 偏 移 量 。 尽 管 如 此 ， 在 记录 被 保存 到 
数据 库 之 后 以 及 偏 移 量 被 提交 之 前 ， 应 用 程序 仍然 有 可 能 发 生 表 种 ， 导 致 重复 处 
理 数据 ， 数 据 库 里 惑 会 出 现 重 复 记录 。 


如 有 果 保 存 记 录 和 偏 移 量 可 以 在 一 个 原子 操作 里 完成 ， 就 可 以 避免 出 现 上 述 情况 。 
记录 和 偏 移 量 要 么 都 被 成 功 提交 ， 要 么 都 不 提交 。 如 有 果 记 录 是 保存 在 数据 库 里 而 
偏 移 量 是 提交 到 Kafka 上 ， 那 么 就 无 法 实现 原子 操作 。 


不 过 ， 如 果 在 同一 个 事务 里 把 记录 和 偏 移 量 都 写 到 数据 库 里 会 怎样 呢 ? 那 么 我 们 
束 会 知道 记录 和 偏 移 量 要 么 都 成 功 提交 ， 要 么 都 没有 ， 然 后 重新 处 理 记 录 。 


现在 的 问题 是 ， 如 采 侦 移 量 是 保存 在 数据 库 里 而 不 是 Kafka 里 ， 那 么 消费 者 在 得 
到 新 分 区 时 怎么 知道 该 从 哪里 开始 读 取 ? 这 个 时 候 可 以 使 用 ss 方法 。 在 消 
寓 痢 局 动 或 分 站 配 到 新 分 区 时 ， 可 以 使 用 seek( ) 方法 查找 保存 在 数据 库 里 的 偏 移 


量 。 


下 面 的 例子 大 致 说 明了 如 何 使 用 这 个 API。 使 用 
ConsumerRebalanceListener 和 seek( ) 方法 确保 我 们 是 从 数据 库 里 保存 的 
偏 移 量 所 指定 的 位 置 开 始 处 理 消息 的 。 


public class SaveOoffsetsOnRebalance implements 
ConsumerRebalanceListener { 


public void onPartitionsRevoked(Collection<TopicPartition> 
partitions) { 
commitDBTransaction(); @ 


} 


public void onPartitionsAssigned(Collection<TopicPartition> 
partitions) { 
for(TopicPartition partition: partitions) 
consumer .seek(partition, getoffsetFromDB(partition)); © 


consumer .subscribe(topics, new SaveoffsetonRebalance(consumer ) ) ; 
consumer .poll1(0); 


for (TopicPartition partition: consumer.assignment()) 
consumer .seek(partition, getoffsetFromDB(partition)); © 


while (true) { 
ConsumerRecords<String, String> records = 
consumer .poll(100); 

for (ConsumerRecord<String, String> record : records) 

{ 
processRecord(record); 
storeRecordInDB(record); 
storeoffsetInDB(record.topic(), record.partition(), 

record.offset()); @ 


commitDBTransaction( ); 


@ 使 用 一 个 虚构 的 方法 来 提交 数据 库 事务 。 大 致 想法 是 这 样 的 : 在 处 理 完 记 录 之 
后 ， 将 记录 和 偏 移 量 搬入 数据 库 ， 然 后 在 即将 失去 分 区 所 有 权 之 前 提交 事务 ， 确 
保 成 功 保 存 了 这 些 信息 。 


@ 使 用 另 一 个 虚构 的 方法 来 从 数据 库 获 取 偏 移 量 ， 在 分 配 到 新 分 区 的 时 候 ， 使 用 
seek( ) 方法 定位 到 那些 记录 。 


@ 订阅 主题 之 后 ， 开 始 启动 消费 者 ， 我 们 调用 一 次 pol1( ) 方法 ， 让 消费 者 加 入 
到 消费 者 群 组 里 ， 并 获取 分 配 到 的 分 区 ， 然 后 马上 调用 seek( ) 方法 定位 分 区 的 
偏 移 量 。 要 记 住 ，seek( ) 方法 只 更 新 我 们 正在 使 用 的 位 置 ， 在 下 一 次 调用 
polL1() 时 就 可 以 获得 正确 的 消息 。 如 果 seek( ) 发 生 错误 〈 比 如 偏 移 量 不 存 
在 ) ，pol1l( ) 就 会 抛 出 异常 。 


@ 男 一 个 虚构 的 方法 ， 这 次 要 更 新 的 是 数据 库 里 用 于 保存 偏 移 量 的 表 。 假 设 更 新 
记录 的 速度 非常 快 ， J 次 数据 库 ， 但 提交 的 速度 比较 
慢 ， 所 以 只 在 每 个 批 次 末尾 提交 一 次 。 这 里 可 以 通过 很 多 种 方式 进行 优化 。 


通过 把 偏 移 量 和 记录 保存 到 同一 个 外 部 系统 来 实现 单 次 语义 可 以 有 很 多 种 方式 ， 
不 过 它们 都 需要 结合 使 用 ConsumerRebalanceListener 和 seek( ) 方法 来 
确保 能 够 及 时 保存 偏 移 量 ， 并 保证 消费 者 总 是 能 够 从 正确 的 位 置 开 始 读 取消 息 。 


4.9 ”如何 退 出 


在 之 前 讨论 轮 询 时 就 说 过 ， 不 需要 担心 消费 者 会 在 一 个 无 限 循环 
们 会 告诉 消费 着 如 何 优雅 地 退出 循环 。 


如 果 确 定 要 退出 循环 ， 需 要 通过 另 一 个 线程 调用 consumer .wakeup( ) 方法 。 
如 果 循 环 运行 在 主线 程 里 ， 可 以 在 ShutdownHook 里 调用 该 方法 。 要 记 住 ， 
consumer .wakeup() 是 消费 者 唯 个 可 以 从 其 他 线程 里 安全 调用 的 方法 。 
调用 consumer .wakeup() 可 以 退出 po11() ， 并 抛 出 WakeupException 异 
常 ， 或 者 如 果 调 用 consumer .wakeup() 时 线程 没有 等 待 轮 询 ， 那么 异常 将 在 
下 一 轮 调用 po1L1() 时 抛 出 。 我 们 不 需要 处 理 WakeupException ， 因 为 它 

是 用 于 跳出 循环 的 一 种 方式 。 不 过 ， 在 退出 线程 之 前 调用 consumer. el 
是 很 有 必要 的 ， 它 会 提交 任何 还 没有 提交 的 东西 ， J 发 送 消 息 ， 告 
知 自己 要 离开 群 组 ， 接 下 来 就 会 触发 再 均衡 ， 而 不 需 会 话 超 时 。 


下 面 是 运行 在 主线 程 上 的 消费 者 退出 线程 的 代码 。 这 些 代 码 经 过 了 简化 ， 你 可 以 
在 这 里 查看 完整 的 代码 : http://bit.ly/2u47e9A 。 


旺 


里 轮 询 消息 ,我 


nk 


Runtime.getRuntime().addSshutdownHook(new Thread() { 
public void run() { 
System.out.println("Starting exit..."); 
consumer .wakeup(); @ 
try { 
mainThread.join(); 
} catch (InterruptedException e) { 
e.printStackTrace( ); 


try { 


// 循环 ， 直 到 按 下 CtrlL+C 键 ， 关 闭 的 钩子 会 在 退出 时 进行 清理 
while (true) { 
ConsumerRecords<String, String> records = 
movingAvg.consumer .poll(1000); 
System.out.println(System.currentTimeMillis() + " 
waiting for data..."); 
for (ConsumerRecord<String, String> record : 


records) 1 
System.out.printf("offset = %d, key = %s, 
Value = %s\n", 
record.offset(), record.key(), 
record.value( )); 
} 
for (TopicPartition tp: consumer.assignment()) 
System.out.println("Committing offset at 
position:" + 
consumer .position(tp)); 
movingAvg.consumer .commitSync(); 


} a (WakeupException e) { 
// 忽略 关闭 异常 @ 
} finally { 
consumer .close(); © 
System,out.println("Closed consumer and we are done"); 


@ ShutdownHook 运行 在 单独 的 线程 里 ， 所 以 退出 循环 最 安全 的 方式 只 能 是 调 


用 wakeup( ) 方法 。 


@ 在 另 一 个 线程 里 调用 wakeup( ) 方法 ， 导 致 po11() 抛 出 


WakeupException。 你 可 能 想 捕获 异常 以 确保 应 用 不 会 意外 终止 ， 但 实际 上 这 


不 是 必需 的 。 
@ 在 退出 之 前 ， 


确保 彻底 关闭 了 消费 者 。 


4.10” 反 序列 化 器 


在 之 前 的 章节 是 
Kafka。 类 似 地 ， 


里 提 到 过 ， 生 产 者 需要 用 序列 化 器 把 对 象 转换 成 字 节 数组 再 发 送 给 


消费 者 需要 用 反 序列 化 器 把 从 Kafka 接收 到 的 字 节 数组 转换 成 


Java 对 象 。 在 前 面 的 例子 里 ， 我 们 假设 每 个 消息 的 键 值 对 都 是 字符 串 ， 所 以 我 们 
使 用 了 默认 的 String Deserializer 。 


在 上 一 章 讲解 Kafka 生产 者 的 时 候 ， 我 们 已 经 介绍 了 如 何 序 列 化 自 定义 对 象 类 
型 ， 以 及 如 何 使 用 Avro 和 AvroSerializer 根据 定义 好 的 schema 生成 Avro 对 
象 。 现 在 来 看 看 如 何 为 对 和 象 自 定义 反 序列 化 器 ， 以 及 如 何 使 用 Avro 和 Avro 反 序 


列 化 絮 。 


很 显然 ， 生 成 消息 使 用 的 序列 化 器 与 读 取消 息 使 用 的 反 序列 化 侨 应 该 是 一 一 对 应 


的 。 使 用 IntSerializer 序列 化 ， 然 后 使 用 StringDeserializer 进行 反 序列 化 ， 会 出 
现 不 可 预测 的 线条 。 对 于 开发 者 来 次 , 必须 知道 写 入 主题 的 消息 使 用 的 是 哪 一 “种 
序列 化 器 ， 并 确保 每 个 主题 里 只 包含 能 够 被 反 序 列 化 器 解析 的 数据 。 使 用 Avro 


和 schema 注册 表 进 行 序列 化 和 反 序 列 化 的 优势 在 于 : AvroSerializer 可 以 保证 写 


入 主题 的 数据 与 主题 的 schema 是 兼容 的 ， 也 束 是 说 ， 可 以 使 用 相应 的 反 序 列 化 
器 和 schema 来 反 序 列 化 数据 。 另 外 ， 在 生产 者 或 消费 者 里 出 现 的 任何 一 个 与 兼 


容 性 有 关 的 错误 都 会 被 捕捉 到 ， 它 们 都 带 有 消息 描述 ， 也 就 是 说 ， 在 出 现 序 列 化 


错误 时 ， 融 没 必要 再 去 调试 字 节 数组 了 。 
尽管 不 建议 使 用 目 定义 的 反 序 列 化 器 ， 我 们 仍然 会 入 单 地 演示 如 何 目 定义 反 序列 


化 右 ， 然 后 再 举例 演示 如 何 使 用 Avro 来 反 序列 化 消息 的 键 和 值 。 


01. 


自 定义 反 序列 化 器 
我 们 以 在 第 3 章 使 用 过 的 目 定义 对 象 为 例 ， 为 它 写 一 个 反 序 列 化 器 


public class Customer { 
private int customerID; 
private String customerName; 


public Customer(int ID, String name) { 
this.customerID = ID; 
this.customerName = name; 


} 


public int getID() { 


return customerID; 


public String getName() { 
return customerName,; 


目 定 义 反 序列 化 器 看 起 来 是 这 样 的 ; 


import org.apache.kafka.common.errors.SerializationException; 


Import java.nio,ByteBuffer ; 
import java.util.Map; 


public class CustomerDeserializer implements 
Deserializer<Ccustomer>{@ 


@Override 
public void configure(Map configs, boolean iskey) { 


// 不 需要 做 任何 配置 
} 


Q@Override 
public Customer deserialize(String topic, byte[] data) { 


int id; 


int nameSize; 
String name; 


try { 
If (data == null) 
return null; 
if (data.length < 8) 
throw new SerializationException("Size of data received by 
IntegerDeserializer is shorter than expected"); 


ByteBuffer buffer = ByteBuffer.wrap(data); 
id = buffer.getIint(); 
nameSize = buffer.getIint(); 


byte[] nameBytes = new byte[nameSizel]; 
buffer .get(nameBytes); 
name = new String(nameBytes, "UTF-8"); 


return new Customer(id, name); © 
} catch (Exception e) { 
throw new SerializationException("Error when serializing 


Customer 
to byte[] " + e); 


} 


Q@Override 
public void close() { 

// 不 需要 关闭 任何 东西 
} 


} 


@ 消费 者 也 需要 使 用 Customer 类 ， 这 个 类 和 序列 化 器 在 生产 者 和 消费 者 
应 用 程序 里 要 相互 匹配 。 在 一 个 大 型 的 企业 里 ， 会 有 很 多 消费 者 和 生产 者 共 
享 这 些 数据 ， 这 对 于 企业 来 说 算是 一 个 挑战 。 


@ 我 们 把 序列 化 器 的 逻辑 反 过 来 ， 从 字 节 数组 里 获取 customer ID 和 
name ， 再 用 它们 构建 需要 的 对 象 。 


使 用 反 序列 化 器 的 消费 者 代码 看 起 来 是 这 样 的 : 


Properties props = new Properties(); 
props.put("bootstrap.servers", "broker1:9092,broker2:9092"); 
props.put("group.id", "CountryCounter"); 
props.put("key.deserializer", 
"org.apache.kafka.common.serialization.StringDeserializer"); 
props.put("value.deserializer", 
"org.apache.kafka.common.serialization.CustomerDeserializer"); 


KafkaConsumer<String, Customer> consumer = 


02 


new KafkaConsumer<>(props); 
consumer ,Subscribe(Collections,.singletonList("customerCountries”") ) 


while (true) { 
ConsumerRecords<String, Customer> records = 
consumer .poll(100); 
for (ConsumerRecord<String, Customer> record : records) 


{ 
System.out.println("current customer Id: "+ 
record.value().getIiD() + " and 

current customer name: " + record.value().getName()); 
} 


再 强调 一 次 ， 我 们 并 不 建议 使 用 自 定 义 序列 化 器 和 目 定 义 反 序列 化 右 。 它 们 


把 生产 者 和 消费 者 紧 紧 地 耦合 在 一 起 ， 并 且 很 脆弱 ， 容 易 出 错 。 我 们 建议 使 
用 标准 的 消息 格式 ， 比 如 JSON、Thrift、Protobuf 或 Avro。 接 下 来 ， 我 们 会 
看 到 如 何在 消费 着 3 里 使 用 Avro 反 序 列 化 器 。 可 以 回 到 第 3 章 查 看 有 关 Avro 
的 项 目 背 景 、schema 和 schema 的 兼容 能 力 。 


.在 消费 者 里 进行 Avro 反 序 列 化 


我 们 在 Avro 里 使 用 第 3 章 出 现 过 的 Customer 类 ， 为 了 读 取 这 些 对 象 ， 
要 实现 一 个 类 似 这 样 的 消费 者 应 用 程序 : 


Properties props = new Properties(); 
props.put("bootstrap.servers", "broker1:9092,broker2:9092"); 
props.put("group.id", "CountryCounter"); 
props.put("key.serializer", 
"org.apache.kafka.common.serialization.StringDeserializer"); 
props.put("value.serializer", 
"io.confluent.kafka.serializers.KafkaAvroDeserializer"); @ 
props.put("schema.registry.url", schemaUrl); © 
String topic = "customerContacts" 


KafkaConsumer consumer = new 
KafkaConsumer (createConsumerConfig(brokers,groupId, ur1)); 
consumer .subscribe(Collections.singletonList(topic)); 


System.out.println("Reading topic:" + topic); 


while (true) { 
ConsumerRecords<String, Customer> records = 
consumer .pol1(1000); © 


for (ConsumerRecord<String, Customer> record: records) { 
System.out.println("Current customer name is: "+ 
record.value().getName()); @ 


consumer .commitSync(); 


KE 反 序 列 化 Avro 消 息 9 


@ schema.registry .url 是 一 个 新 的 参数 ， 它 指 
向 8 


肖 费 者 可 以 使 用 由 生产 者 注册 的 schema 来 反 序列 化 消息 
@ 将 生成 的 类 Customer 作为 值 的 类 型 。 


@ 使 用 KafkaAvroDeserializer 


发 


一 < 


可 schema 的 存放 位 置 


0° 


@record.value()i 


oS 


返回 的 是 一 个 Customer 实例 ， 接 下 


就 


可 以 使 用 它 


J 什么 以 及 怎样 使 用 没有 群 组 的 消 


到 目前 为 止 ， 我 们 讨论 了 消费 者 群 组 ， 分 区 被 自动 分 配给 群 组 里 的 消费 者 ， 在 群 
组 里 新 增 或 移 除 消费 者 时 自动 触发 再 均衡 。 通 常情 况 下 ， 这 些 行为 刚好 是 你 所 需 


要 的 ， 不 过 有 时 候 你 需要 一 此 更 简单 的 东西 。 ee 你 可 能 只 需要 


个 消费 者 从 
一 个 主题 的 所 有 分 区 或 者 某 个 特定 的 分 区 读 取 数 据 。 这 个 时 候 就 不 需要 消费 者 群 
组 和 再 均衡 了 ， 只 需要 把 主题 或 者 分 区 分 配给 消费 者 ， 然 后 开始 读 取 消息 并 提交 
偏 移 量 。 
如 果 是 这 样 的 话 ， 就 不 需要 订阅 主题 ， 取 而 代 之 的 是 为 自己 分 配 分 区 。 一 个 消 
费 者 可 以 订阅 主题 《并 加 入 消费 者 群 组 ) ， 或 者 为 自己 分 配 分 区 ， 但 不 能 同时 做 
这 两 件 事情 。 
下 面 的 例子 演示 了 一 个 消费 者 是 如 何 为 自己 分 配 分 区 并 从 分 区 里 读 取 消息 的 : 


List<PartitionInfo> partitionInfos = null; 
partitionInfos = consumer.partitionsFor("topic"); @ 


If (partitionInfos != null) { 
for (PartitionInfo partition : partitionInfos ) 
partitions.add(new TopicPartition(partition.topic(), 
partition.partition())); 
consumer .assign(partitions); © 


while (true) { 
ConsumerRecords<String, 
consumer .poll1(1000); 


String> records = 


for (ConsumerRecord<String, String> record: 
System.out.printlin("topic = %s, 
customer = %s, 


records) { 
partition = %s, 
country = %s\n", 


offset = %d, 


} 
} 


record.topic(), record., 


partition(), record.offset(), 


record.key(), record.value()); 


consumer .commitSync(); 


@ 丫 集 群 请 求 主题 可 用 的 分 区 。 如 果 只 


@ 知道 需要 哪些 分 区 之 后 ， 调 用 assign() 方法 。 


除了 不 会 


发 生 再 均衡 ， 也 不 需要 手动 查 


! 打 算 读 取 特定 分 区 ， 可 以 跳 过 。 


找 分 区 ， 其 他 的 看 起 来 一 切 正常 。 不 过 要 


记 住 ， 如 果 主 题 增 加 了 新 的 分 区 ， 消 费 者 并 不 会 收 到 通知 。 所 以 ， 要 么 周期 性 地 
调用 consumer .partitionsFor( ) 方法 来 检查 是 否 有 新 分 区 加 入 ， 要 么 在 添 


加 新 分 


4.12 


我 们 在 这 一 章 讨 论 的 Java KafkaConsumer 客户 端 是 
org.apache.kafka.clients 包 的 一 部 分 。 


区 后 重 局 应 用 程序 。 


旧版 的 消费 者 API 


还 有 两 个 旧版 本 的 Scala 消费 者 客户 端 ， 它 们 是 kafka.consumer 包 的 一 部 


分 ， 属 于 


Kafka 核心 模块 。 它 们 分 别 被 


叫 作 SimpleConsumer (简单 消费 者 ， 


在 本 书写 到 这 一 章 的 时 候 ，Kafka 


实际 上 也 不 是 那么 简单 ， 它 们 是 对 Kafka API 的 轻 度 包装 ， 可 以 用 于 从 特定 的 分 
区 和 偏 移 量 开始 读 取 消息 ) 和 高 级 消费 


200r Seboreon Suner Conne orto, 


有 分 区 再 均衡 ， 


者 。 高 级 消费 者 指 的 就 是 


它 有 点 像 现 在 的 消费 者 ， 有 消费 者 群 组 ， 


和 再 均衡 的 可 操控 性 。 


因为 现在 的 消费 者 同时 支持 以 上 两 种 行为 ， 并 
和 可 操控 性 ， 所 以 我 们 不 打算 讨论 旧版 API。 如 果 你 想 使 用 它们 ， 那 么 请 三 思 ， 


如 果 确 定 


4.13 


我 们 在 本 章 开 头 解释 了 Kafka 消费 者 群 组 概念 ， 


要 使 用 ， 可 以 从 Kafka 文档 
沿 疆 


An 一 器 


题 上 读 取消 息 。 在 介绍 完 概 念 之 后 ， 我 


不 过 它 使 用 Zookeeper 来 管理 消费 者 群 组 ， 并 不 具备 提 区 偏 移 量 


上 了解 更 多 的 信息 。 


且 为 开发 人 员 提 供 了 更 高 的 可 靠 性 


消费 者 群 组 支持 多 个 消费 者 从 主 


们 文 给 出 了 一 个 消费 订阅 主题 并 持续 读 取 


消息 的 例子 。 然后 介 绍 了 一 些 重要 的 消费 者 配置 参数 以 及 它们 对 消费 者 行为 的 影 


响 。 我 们 用 一 大 部 分 内 容 解 释 偏 移 量 以 及 六 
者 提交 偏 移 量 的 方式 有 助 更 好 地 使 用 消费 者 客户 端 ， 所 以 我 们 介 


时 缆 者 是 如 何 管理 偏 移 量 的。 了 解 消 和 费 


偏 移 量 提 交 方 式 。 然 后 又 探讨 了 消费 者 
及 如 何 天 闭 消费 者 。 


* 绍 了 儿 种 不 同 的 


API 的 其 他 话题 ， 比如 如 何 处 理 再 均衡 以 


最 后 ， 我 们 介绍 了 反 序列 化 器 ， 消 费 者 客户 端 使 用 反 序 列 化 器 将 保存 在 Kafka 里 
字 节 估 欣 成 应 用 和 序 可 以 处 理 的 Java 对 象 。 我 们 主要 介绍 了 Avro 反 序 列 化 
， 昌 然 有 很 多 可 用 的 反 序列 化 器 ， 但 在 Kafka 里 ，Avro 是 最 为 常用 的 一 个 。 


现在 ， 我 们 已 经 知道 如 何 生 成 和 读 取 Kafka 消息 ， 下 一 章 将 介绍 Kafka 内 部 的 实 
现 细 用 。 


第 5 章 深入 Kafka 


如 果 只 是 为 了 开发 Kafka 应 用 程序 ， 或 者 只 4 是 在 生产 环境 使 用 Kafka， 那 么 了 解 
Kafka 的 内 部 工作 原理 不 是 必需 的 。 不 过 ， 了 解 Kafka 的 内 部 工作 原理 有 助 于 理 
解 Kafka 的 行为 ， 也 有 助 于 诊断 问题 。 本 章 并 不 会 涵 关 Kafka 的 每 一 个 设计 和 实 
现 细节 ， 而 是 集中 讨论 以 下 3 个 有 意思 的 话题 : 


。 Kafka 如 何 进 行 复制 ; 
。 Kafka 如 何 处 理 来 自生 产 者 和 消费 者 的 请 求 ; 
。 Kafka 的 存储 细节 ， 比 如 文件 格式 和 索引 。 


在 对 Kafka 进行 调 优 时 ， 深入 理解 这 坚 问 题 是 很 有 必要 的 。 了 解 了 内 部 机 制 ， 可 
以 更 有 目的 性 地 进行 深入 的 调 优 ， 而 不 只 是 停留 在 表面 ， 隅 靴 拖 痒 。 


5.1 集群 成 员 关 系 


Kafka 使 用 Zookeeper 来 维护 集群 成 员 的 信息 息 。 每 个 broker 都 有 一 个 唯一 标识 
符 ， 这 个 标识 符 可 以 在 配置 文件 里 指定 ， 也 可 以 自动 生成 。 在 broker 启动 的 时 
候 ， 它 通过 创建 临时 节点 把 自己 的 ID 0 注册 到 Zookeeper。Kafka 组 件 订 阅 
Zookeeper 的 /brokers/ids 路 径 (broker 在 Zookeeper 上 的 注册 路 径 ) ， 当 有 broker 
加 入 集群 或 退出 集群 时 ， 这 些 组 件 就 可 以 获得 通知 。 


如 果 你 要 启动 男 一 个 具有 相同 ID 的 broker， 会 得 到 一 个 错误 新 broker 会 试 
着 进行 注册 ， 但 不 会 成 功 ， 因 为 Zookeeper 里 已 经 有 一 个 具有 相同 ID 的 broker 。 


在 broker 停机 、 出 现 网 络 分 区 或 长 时 间 垃 圾 回收 停顿 时 ，broker 会 从 Zookeeper 
上 上 断 开 连接 ， 此 时 broker 在 启动 时 创建 的 临时 节点 会 自动 从 Zookeeper 上 移 除 。 
监听 broker 列表 的 Kafka 组 件 会 被 告知 该 broker 已 移 除 。 


在 关闭 broker 时 ， 它 对 应 的 节点 也 会 消失 ， 不 过 它 的 ID 会 继续 存在 于 其 他 数据 
结构 中 。 例 如 ， 主题 的 副本 列表 (下 面 会 介绍 ) 里 就 可 能 包含 这 些 ID。 在 完全 关 
闭 一 个 broker 之 后 ， 如 果 使 用 相同 的 ID 启动 男 一 个 全 新 的 broker， 它 会 立即 加 
入 集群 ， 并 拥有 与 旧 broker 相同 的 分 区 和 主题 。 


| 


打开 


5.2 ”控制 器 


控制 器 其 实 就 是 一 个 broker， 只 不 过 它 除 了 具有 一 般 broker 的 功能 之 外 ， 还 负责 


分 区 首领 的 选举 (我 们 将 在 5.3 节 讨 论 分 区 首领 选举 ) 。 集 群 里 第 一 个 启动 的 
broker 通过 在 Zookeeper 里 创建 一 个 临 时 节点 /controller 让 自己 成 为 控制 

锋 。 其 他 ey 在 启动 时 也 会 党 斌 创建 这 个 节点 ， 不 过 它们 会 收 到 一 个 “节点 已 
存在 ”的 异常 ， 然 后 “意识 ”到 控制 器 节点 已 存在 ， 也 就 是 说 集群 里 已 经 有 一 个 控制 
器 了 。 其 他 Dreker 在 控制 器 节 节点 上 创建 Zookeeper watch 对 象 ， 这 样 它们 就 可 以 


收 到 这 个 市 点 的 变更 通知 。 这 种 方式 可 以 确保 集群 时 次 只 有 一 个 控制 器 存在 。 


如 果 控 制 器 被 关闭 或 者 与 Zookeeper 断 开 连接 ， Zookeeper 上 的 临时 节点 就 会 消 


失 。 集 群 里 的 其 他 broker 通过 watch 对 象 得 到 控制 器 节点 消失 的 通知 ， 它们 会 


党 试 让 自己 成 为 新 的 控制 器 。 第 一 个 在 Zookeeper 里 成 功 创建 控制 器 节点 的 


broker 就 会 成 为 新 的 控制 器 ， 其 他 节点 会 收 到 “和 点 已 存在 ”的 异常 ， 然 后 在 新 的 
控制 器 节点 上 再 次 创建 watch 对 象 。 每 人 个 新 选 出 的 控制 器 通过 oeenet 的 条 件 
递增 操作 获得 一 个 全 新 的 、 数 值 更 大 的 controller epoch 。 其 他 broker 在 知 


道 当 前 controller epoch 后 ， 如 果 收 到 由 控制 器 发 出 的 包含 较 旧 epoch 的 消 


息 ， 束 会 忽略 它们 。 


当 控 制 器 发 现 一 个 broker 已 4 离开 集群 (通过 观察 相关 的 Zookeeper 路 径 ) ， ,已 
就 知道 ， 那 些 失 去 首领 的 分 区 需要 一 个 新 首领 (这 些 分 区 的 首领 刚好 是 在 这 


broker 上 ) 。 控 制 器 遍历 这 些 分 ss 并 确定 谁 应 该 成 为 新 首领 


区 副本 列表 里 的 下 一 个 副本 ) ， 然 后 向 所 有 包含 新 首领 或 现 有 跟随 者 的 broker 发 
送 请 求 。 该 请 求 消息 包含 了 谁 是 新 首领 以 及 谁 是 分 区 跟随 者 的 信息 。 随 后 ， 新 首 


领 开始 处 理 来 自生 产 者 和 消费 者 的 请 求 ， 而 跟随 者 开始 从 新 首领 那里 复制 消 恩 。 


当 控 制 器 发 现 一 个 broker 加 入 集群 时 ， 它 会 使 用 broker ID 来 检查 新 加 入 的 broker 


和 其 他 broker， 新 broker 上 的 副本 开始 从 首领 那里 复制 消息 


简 而 言 之 ，Kafka 使 用 Zookeeper 的 临时 节点 来 选举 控制 器 


是 否 包含 现 有 分 区 的 副本 。 如 果 有 ， 控 制 占 就 把 变 由 通知 发 送 4 台新 加 入 的 broker 


并 在 节点 加 入 集群 


退出 集群 时 通知 控制 器 。 控 制 器 负责 在 节点 加 入 或 离开 集群 时 进行 分 区 首领 选 


° 控制 器 使 用 epoch 来 避免 “ 脑 裂 ”。“ 脑 裂 "是 指 两 个 万 点 同时 认为 自己 是 当前 


的 控制 器 
5.3 复制 


复制 功 色 Kafka 9 架构 的 核心 。 在 Kafka 的 文档 里 ，Kafka 把 自己 描述 成 “一 个 分 
布 式 的 、 可 分 区 的 、 可 复制 的 提交 日 志 服 务 ”。 复制 之 所 以 这 么 关键 ， 是 因为 它 


可 以 在 个 别名 节点 失效 时 仍 能 保证 Kafka 的 可 用 性 和 持久 性 


Kafka 使 用 主题 来 组 织 数据 ， 每 个 主题 被 分 为 者 干 个 分 区 ， 每 个 分 区 有 多 个 副 
本 。 那 些 副本 被 保存 在 broker 上 ， 每 个 broker 可 以 保存 成 百 上 干 个 属于 不 同 主题 
和 分 区 的 副本 。 

副本 有 以 下 两 种 类 型 。 

首领 副本 


每 个 分 区 都 有 一 个 首领 副本 。 为 了 保证 一 致 性 ， 所 有 生产 者 请 求 和 消费 者 请 
求 都 会 经 过 这 个 副本 。 


首领 以 外 的 副本 都 是 跟随 者 副本 。 跟 随 者 副本 不 处 理 来 自 客 户 端的 请 求 ， 它 
们 唯一 的 任务 就 是 从 首领 那里 复制 消息 ， 保 持 与 首领 一 致 的 状态 。 如 果 首 领 发 生 
朋 演 ， 其 中 的 一 个 跟随 者 会 被 提升 为 新 首领 。 


首领 的 另 一 个 任务 是 搞 清 楚 哪 个 跟随 者 的 状态 与 目 己 是 一 致 的 。 跟 随 者 为 了 保持 
与 首领 的 状态 一 致 ， 在 有 新 消 息 到 达 时 符 试 从 首领 那里 复制 消 轧 ， 不 过 有 各 种 原 
因 会 导致 同步 失败 。 例 如 ， 网 络 拥塞 导致 复制 变 慢 ，broker 发 生 朋 演 导致 复制 沛 
后 ， 直 到 重启 broker 后 复制 才 会 继续 。 


为 了 与 首领 保持 同步 ， 跟 随 者 向 首领 发 送 获取 数据 的 请 求 ， 这 种 请 求 与 消费 者 为 
了 读 取 消息 而 发 送 的 请 求 是 一 样 的 。 首 领 将 响应 消息 发 给 跟随 者 。 请 求 消息 里 包 
含 了 跟随 者 想 要 获取 消息 的 偏 移 量 ， 而 且 这 些 偏 移 量 总 是 有 序 的 。 


一 个 跟随 者 副本 先 请 求 消息 1， 接 着 请 求 消息 2， 然 后 请 求 消息 3， 在 收 到 这 3 个 
AR 它 是 不 会 发 送 第 4 个 请 求 消息 的 。 如 果 跟 随 者 发 送 了 请 求 消息 
那么 首领 就 知道 间 它 已经 收 到 了 前 面 3 个 请 求 的 响应 。 通 过 埋 看 每 个 跟随 者 请 
求 的 最 新 偏 移 量 领 就 会 知道 每 个 跟随 者 复制 的 进度 。 如 果 跟 随 者 在 10s 内 没 
有 请 求 任何 消息 ”或 者 虽然 在 请 求 消息 但 在 10s 内 没有 请 求 最 新 的 数据 ， 那 么 
它 就 会 被 认为 是 不 同步 的。 。 如 果 一 个 副本 无 法 与 首 人 页 保持 一 致 ， 在 首领 发 生 失 效 
时 ， 它 就 不 可 能 成 为 新 首领 一 一 毕竟 它 没有 包含 全 部 的 消息 。 


相反 ， 持 续 请 求 得 到 的 最 新 消息 副本 被 称 为 同步 的 副本 。 在 首领 发 生 失 效 时 ， 只 
有 同步 副本 才 有 可 能 被 选 为 新 首领 。 


跟随 者 的 正常 不 活跃 时 间或 在 成 为 不 同步 副本 之 前 的 时 间 是 通过 
replica.1lag.time.max.ms 参数 来 配置 的 。 这 个 时 间 间 隔 直 接 影 响 着 首领 选 
举 期 间 的 客户 端 行为 和 数据 保留 机 制 。 我 们 将 在 第 6 章 讨 论 可 靠 性 保证 ， 到 时 候 
会 深入 讨论 这 个 问题 。 


除了 当前 首领 之 外 ， 每 个 分 区 都 有 一 个 首选 首领 一 一 创建 主题 时 选 定 的 首领 就 是 
分 区 的 首选 首领 。 之 所 以 把 它 叫 作 首 选 首领 ， 是 因为 在 创建 分 区 时 ， 需 要 在 


中 


broker 之 间 均 衡 首 领 (后 面 会 介绍 在 broker 间 分 布 副 本 和 首领 的 算法 ) 。 因 此 ， 
我 们 希望 首选 首领 在 成 为 真正 的 首领 时 ，broker 间 的 负载 最 终 会 得 到 均衡 。 默 认 
情况 下 ，Kafka 的 auto.leader .rebalance.enable 被 设 为 true ， 它 会 检 


查 首选 首领 是 不 是 当前 首领 ， 如 果 不 是 ， 并 且 该 副本 是 同步 的 ， 那 么 就 会 触发 首 


领 选举 ， 让 首选 首 人 


页 成 为 当前 首领 


® 找到 首选 首领 


> 分 区 的 副本 清单 里 可 以 很 容易 找到 首选 首领 (可 以 使 用 kafka.topics.sh 工 
具 查 看 副本 和 分 区 的 详细 信息 忆 ， EE 10 章 介 绍 管理 工具 ) 。 清 单 里 

的 第 一 个 副本 般 就 是 首选 。 不管 当前 首 4 领 是 名 个 副本 ， 都 不 会 改变 

这 个 事实 ， 即 使 使 用 副本 分 ee 副本 重新 分 本 给 其 他 oh 。 要 记 住 


区 


- 口 


如 果 你 手动 进行 副本 分 配 ， 第 一 个 指定 的 副本 就 是 首选 首领 所 以 要 确保 首 
选 首领 被 传播 到 其 他 broker 上 ， 避 人 免 让 包含 了 首领 的 es 负载 过 重 ， 而 其 
他 broker 却 无 法 为 它们 分 担负 载 。 


5.4 ”处 理 请 求 

broker 的 大 部 分 0 ee 页 的 请 求 。 
Kafka 提供 了 a 指定 了 请 求 消息 的 格式 以 及 broker 
如 何 对 请 求 he ' 遇 到 错误 。 客 户 


端 发 起 连接 并 发 送 请 求 人 求 并 作出 啊 应 。broker 按照 请 求 到 达 的 顺 
顺序 保证 让 Kafka 具有 了 消息 队列 的 特性 ， 同 时 保证 保存 
9 消 是 有 序 的 。 


所 有 的 请 求 消息 都 包含 一 个 标准 消息 头 : 


/DA 


。 Request type (也 就 是 API key) 
。 Request version (broker 可 以 处 理 不 同 版 本 的 客户 端 请 求 ， 并 根据 客户 端 版 本 


作出 不 同 的 响应 ) 
。 Correlation ID 个 具有 唯一 性 的 数字 ， 用 于 标识 请 求 消 


] 求 消息 ， 同时 也 会 出 
现在 响应 消息 和 错误 日 志 里 (用 于 诊断 问题 ) 
i 于 标识 发 送 请 求 的 客户 端 


0 文 里 描述 该 协议 ， 因 为 在 Kafka 文档 里 已 经 有 很 详细 的 说 明 。 不 
了 解 broker 如 何 处 理 请 求 还 是 有 必要 的 后 而 站 我 人 ] 讨 论 Kafka 监控 和 各 
证 选项 时 ， 你 就 会 了 解 到 那些 与 队列 和 线程 有 关 的 度量 指标 和 配置 参数 。 


broker 会 在 它 所 监听 的 每 一 个 端口 上 运行 一 个 Acceptor 线程 ， 这 个 线程 会 创建 
一 个 连接 ， 并 把 它 交 给 Processor 线程 去 处 理 。Processor 线程 (也 被 叫 
作 “ 网 络 线程 >) 的 数量 是 可 配置 的 。 网 络 线程 负责 从 客户 端 获取 请 求 消息 ， 把 它 


Lv 


们 放 进 请 求 队列 ， 然 后 从 响应 队列 获取 响应 消息 ， 把 它们 发 送 给 客户 端 。 图 5-1 
为 Kafka 处 理 请 求 的 内 部 流程 。 


息 补 放 到 请 求 队列 后 ，IO 线程 会 负责 处 理 它 们 。 下 面 是 几 种 最 常见 的 请 


生产 请 求 

生产 者 发 送 的 请 求 ， 它 包含 客户 端 要 写 入 broker 的 消 轧 。 
获取 请 求 

在 消费 者 和 跟随 者 副本 需要 从 broker 读 取消 息 时 发 送 的 请 求 。 


请 求 队列 


啊 应 队列 


aa 


图 5-1: Kafka 处 理 请 求 的 内 部 流程 


生产 请 求 和 获取 请 求 都 必须 发 送 给 分 区 的 首领 副本 。 如 果 broker 收 到 一 个 针对 特 
定 分 区 的 请 求 ， We 区 的 首领 在 另 一 个 broker 上 ， 那 么 发 送 请 求 的 客户 端 会 收 
到 一 个 * 非 分 区 首领 ”的 错误 响应 。 当 针对 特定 分 区 的 获取 请 求 被 发 送 到 一 个 不 含 
有 该 分 区 首领 的 broker 上 上， 也 会 出 现 同样 的 错误 。Kafka 客户 端 要 自己 负责 把 生 
产 请 求 和 获取 请 求 发 送 到 正确 的 broker 上 。 


那么 客户 端 怎 么 知道 该 往 哪 里 发 送 请 求 呢 ?客户 端 使 用 了 男 一 种 请 求 类 型 ， 也 就 
是 元 数据 请 求 。 这 种 请 求 包 含 RR TT 服务 器 端的 响应 消息 
里 舍 的 分 区 、 每 个 分 区 都 有 哪些 副本 ， 以 及 哪个 副本 是 首 

元 数据 请 求 可 以 发 送 人 broker， 因 为 所 有 broker 都 缓存 了 这 些 信 


局 


一 般 情 况 下 ， 客 户 端 会 把 这 些 信 息 缓 存 起 来 ， 并 直接 往 目 标 broker 上 发 送 生 产 请 

求 和 获取 请 求 。 它 们 需要 时 不 时 地 通过 发 送 元 数据 请 求 来 刷新 这 些 信息 (刷新 的 

人 从 而 知道 元 数据 是 否 发 

竺 新 broker 加 入 集群 时 ， 部 分 副本 会 被 移动 到 新 的 broker 上 
(如 本 5-2 所 示 ) 。 另 外 ， 如 果 客 户 端 收 到 “ 韭 首领 * 错 误 ， 0 

之 前 先 刷 新 元 数据 ， 因 为 这 个 错误 说 明了 客户 端正 在 使 用 过 期 的 元 数据 信息 
前 的 请 求 被 发 到 了 错误 的 broker 上 。 


任意 broker 
元 数据 请 求 


元 数据 啊 应 


到 分 区 0 的 生产 者 请 求 。 B00 
从 分 区 0 返回 给 生产 者 的 咯 应 确认) 上 二 任国 


broker 


图 5-2: 客户 端 路 由 请 求 


5.4.1 ”生产 请 求 


我 们 在 第 3 章 讨论 如 何 配置 生产 者 的 时 候 ， 提 到 过 acks 这 个 配置 参 
数 指定 了 需要 多 少 个 broker 确认 才 可 以 认为 一 个 消息 写 入 是 成 功 的 。 不 同 的 配置 
对 “ 写 入 成 功 ” 的 界定 是 不 一 样 的 ， 如 果 acks=1 ， 那 么 只 要 首领 收 到 消息 就 认为 
写 入 成 功 ; 如 果 acks=al1 ， 那 么 需要 所 有 同步 副本 收 到 消息 才 算 写 入 成 功 ， 如 
果 acks=9 ， 那 么 生产 者 在 把 消息 发 出 去 之 后 ， 完 全 不 需要 等 待 broker 的 响应 。 


包含 首领 副本 的 broker 在 收 到 生产 请 求 时 ， 会 对 请 求 做 一 些 验 证 。 


。 发 送 数据 的 用 户 是 否 有 主题 写 入 权限 ? 
。 请 求 里 包含 的 acks 值 是 否 有 效 〈 只 人 允许 出 现 9、1 或 alL) ? 


。 如 果 acks=all ， 
们 可 以 对 broker 进行 配置 ， 


百 


纪 


新 消息 。 在 第 6 章 介 


面 的 细节 。) 


绍 


之 后 ， 消 息 被 写 入 本 地 人 磁盘。 在 Linux 系统 


并 不 傈 记 


是 否 有 足够 多 的 同步 副本 保证 消息 
如 果 同 步 副 本 的 数量 
Kafka 持久 性 和 可 靠 性 保证 时 ， 我 们 会 


消息 


在 消息 被 写 入 分 区 的 首 


消息 的 持久 性 。 
页 之 后 ，broker 开始 检查 


被 设 为 6 或 1， 那 么 broker 立即 返回 啊 应 ; 如果 acks 被 设 为 all ， 那 么 请 
会 被 保存 在 一 个 叫 作 炼狱 的 缓冲 区 里 ， 


直到 首 人 


恩 会 被 写 到 文件 系统 缓存 
1 Kafka 不 会 让 等 竺 数据 疲 写 到 磁 各 上 


页 发 现 所 有 跟随 者 副本 都 复制 了 消 


经 被 安全 写 入 ? 
不 部 So 可 以 拒 台 


(我 
8 处 理 


讨论 更 多 这 方 


甲 


acks 配置 参数 一 如果 acks 


求 


息 ， 了 响应 才 会 被 返回 给 客户 端 。 

5.4.2 ”获取 请 求 

broker 处 理 获 取 请 求 的 方式 与 处 理 生产 请 求 的 方式 很 相似 。 洛 广 端 发 送 请 求 ， 回 
broker 请 求 主题 分 区 里 具有 特定 偏 移 量 的 少 局 和 ， 好 像 在 说 : “请 把 主题 Test 分 区 0 
偏 移 量 从 53 开始 的 消息 以 及 主题 Test 分 区 3 偏 移 开始 的 消息 ,发 给 

我 。” 客 户 端 还 可 以 指定 broker 最 多 可 以 从 一 个 分 区 里 返回 多 少数 据 。 这 个 限制 
是 非常 重要 的 ， 因 为 客户 端 需要 为 broker a 如 果 没 有 


这 个 限制 ，broker 返回 的 大 


我 们 之 前 讨论 过 ， 请 


青 求 需要 先 到 达 指 定 的 分 区 首领 


量 数据 有 可 能 耗 尽 客户 端的 内 存 。 
F， 然 后 客户 端 通过 查询 元 数 


据 来 确保 请 求 的 路 | 


比如 ， 指 定 的 偏 移 量 在 分 


征 正 确 时 。 在 收 到 请 求 时 ， 


它 会 先 检查 请 求 是 


本 计 


数据 ， 


或 者 请 求 的 偏 移 


量 不 存在 ， 那么 broker 将 返回 


如 采 请 求 的 偶 移 量 存在 ， broker 将 按照 客户 端 指 定 的 数 : 
再 把 消息 返回 给 客户 端 。Kafka 使 用 零 复 制 技术 向 容声 端 信 送 消息 
> Kafka 直接 把 消息 从 文件 (或 者 更 确切 地 说 是 Linux 文件 系统 缓存 ) 


一 个 错误 。 


否 有 效 


上 是 否 存在 ? 如 果 客 户 端 请 求 的 是 已 经 被 删除 的 


送 到 网 络 通道 ， 
系统 不 一 样 的 地 方 ， 
地 缓存 里 
的 性 能 


而 不 需要 经 过 任何 


客户 端 除了 可 以 设置 broker 返回 数据 的 上 限 ， 也 可 以 


限 设置 为 10KB， 


就 好 像 是 在 告诉 broker: 
送 给 我 。” 在 主题 消息 


客户 端 发 送 一 个 请 求 ，broker 们 


客户 端 再 发 出 请 : 


的 数据 总 量 是 


很 少 的 数据 其 至 没有 数据 。 


(如 图 5-3 所 示 。 


样 的 ， 但 


前 者 的 来 回 传送 次 数 更 少 ， 


量 上 限 从 分 


里 读 取 消 


也 就 
里 发 


!' 间 缓冲 区 。 这 是 Kafka 与 其 他 大 部 分 数据 库 
其 他 数据 库 在 将 数据 发 送 给 客户 端 之 前 会 先 把 它们 保存 在 本 


设置 下 限 。 例 如 ， 


青 求 ， 每 次 只 


因此 开销 也 更 小 。 


。 这 项 技术 避免 了 字 节 复制 ， 也 不 需要 管理 内 存 缓冲 区 ， 从 而 获得 更 好 


如 有 果 把 下 


“等 到 有 10KB 数据 的 时 候 再 把 它们 发 
流量 不 是 很 大 的 情况 下 ， 这 样 可 以 减少 CPU 和 网 络 开 销 。 
等 到 有 足够 的 数据 时 才 把 它们 返回 给 客户 端 ， 然 后 
求 ， 而 不 是 让 客户 端 每 隔 几 毫秒 就 发 送 一 次 请 
) 对 比 这 两 种 情况 ， 它们 最 余 读 取 


只 


EB 得 到 


broker 


获取 请 求 


图 5-3: broker 


延迟 作出 响应 以 便 累 积 足 够 的 数据 


当然 ， 我 们 不 会 让 客户 端 一 直 等 待 broker 标 积 数据 。 在 等 待 了 一 段 时 间 之 后 ， 就 
可 以 把 可 用 的 数据 拿 回 处 理 ， 而 不 是 一 直 等 待 下去。 所以， 客户 端 可 以 定义 一 个 
超时 时 间 ， 人 告诉 broker: “如 果 你 无 法 在 X 有 秒 内 累积 满足 要 求 的 数据 量 ， 那 么 就 
把 当前 这 些 数 据 返 回 给 我 。” 


有 意思 的 是 ， 并 不 是 所 有 保存 在 分 区 首领 上 的 数据 都 可 以 被 客户 端 读 取 。 大 部 分 


客户 端 只 能 读 取 已 经 被 写 入 所 有 同步 副本 的 消息 (跟随 者 副本 也 不 行 ， 尽 管 它们 


也 是 消费 者 一 一 否则 复制 功能 就 无 法 工作 ) 。 分 区 首领 知道 每 个 消息 会 被 复制 到 
哪个 副本 上 ， 在 消 轧 还 没有 被 写 入 所 有 同步 副本 之 前 ， 是 不 会 发 送 给 消费 者 的 


下 


一 一 壬 试 获取 这 些 消息 的 请 求 会 得 到 空 的 响应 而 不 是 错误 。 


因为 还 没有 被 足够 多 副本 复制 的 消息 被 认为 古 “不 安全 ”的 一 一 如 采 首 领 发 生 衣 
浇 ， 男 一 个 副本 成 为 新 首领 ， 那 么 这 些 消息 就 于 失 了 。 如 果 我 们 允许 消费 者 读 取 


这 些 消 息 ， 可 能 就 会 破坏 一 致 性 。 试 想 ， 一 个 消费 者 读 取 并 处 理 了 这 样 的 一 个 消 


息 ， 而 另 一 个 消费 者 发 现 这 个 消息 其 实 并 不 存在 。 所 以 ， 我 们 会 等 到 所 有 同步 副 


本 复制 了 这 些 消 息 ， 才 允许 消费 者 读 取 它 们 (如 图 5-4 所 示 ) 。 这 也 意味 着 ， 如 


果 broker 间 的 


肖 息 复制 因为 某 些 原因 变 慢 ， 那 么 消息 到 达 消 费 者 的 时 间 也 会 随 之 


变 长 〈 因 为 我 们 会 先 等 待 消息 复制 完毕 ) 。 延 迟 时 间 可 以 通过 参数 
replica,1ag.time.max ,ms 来 配置 ， 它 指定 了 副本 在 复制 消息 时 可 被 允许 的 
最 大 延迟 时 间 。 


图 5-4: 消费 者 只 能 看 到 已 经 复制 到 ISR 的 消息 


5.4.3 ”其 他 请 求 
到 此 为 止 ， 我 们 讨论 了 Kafka 最 为 常见 的 几 种 请 求 类 型 : 元 数据 请 


求 、 生 产 请 求 


和 获取 请 求 。 重 要 的 是 ， 我 们 讨论 的 是 客户 端 在 网 络 上 使 用 的 通用 二 进 制 协议 。 
Kafka 内 置 了 由 开源 社区 贡 we 的 Java 客户 端 ， 同 时 也 有 用 其 他 语言 
实现 的 客户 端 ， 如 C、 Python 、 Go 语言 等 。Kafka 网 站 上 有 它们 的 完整 清单 ， 这 


些 客户 端 就 是 使 用 这 个 二 进 制 协议 与 RE 通信 的 。 


另外 ，broker 之 间 也 使 用 同样 的 通信 协议 。 它 们 之 间 的 请 求 发 生 在 Kafka 内 部 ， 
客户 端 不 应 该 使 用 这 些 请 求 。 例 如 ， 当 一 个 新 首领 被 选举 出 来 ， 控 制 器 会 发 送 


LeaderAndIsr 请 求 给 新 首领 (这样 它 就 可 以 开始 接收 来 自 客户 端的 请 求 ) 和 


跟随 者 (这 样 它们 就 知道 要 开始 跟随 新 首领 ，。 


在 我 们 写 这 本 书 的 时 候 ，Kafka 协议 可 以 处 理 20 种 不 同类 型 的 请 求 ， 
随 着 客户 端 功能 的 不 断 增 加 ， 我 们 需要 


多 的 类 型 加 入 进来 。 协 议 在 持续 演化 


而 且 会 有 更 


改进 协议 来 满足 需求 。 例 如 ， 之 前 的 Kafka 消费 者 使 用 Zookeeper 来 跟 踪 偏 移 


贡 法- 


| 


往 协 议 里 增加 几 种 请 求 类 型 : OffsetCommitRequest 、 


. 


在 消费 者 启动 的 时 候 ， 它 通过 检查 保存 在 Zookeeper 上 的 偏 移 量 就 可 以 知道 
哪 里 开始 处 理 消息 。 因 为 各 种 原因 ， 我 们 决定 不 再 使 用 Zookeeper 来 保存 偏 移 
而 是 把 1 移 量 保存 在 特定 的 Kafka 主题 上 。 为 了 达到 这 个 目的 ， 


我 们 不 得 不 


OffsetFetchRedquest 和 ListoffsetsReduest 。 现 在 ， 在 应 用 程序 调用 


commitoffset() 方法 时 ， 客 户 端 不 再 把 偏 移 量 写 入 Zookeeper， 
发 送 0ffsetCommitRequest 请 求 。 


而 是 往 Kafka 


主题 的 创建 仍然 需要 通过 命令 行 工具 来 完成 ， 命 令 行 工 具 会 直接 更 新 Zookeeper 


里 的 主题 列表 ，broker 监听 这 些 主题 列表 ， 在 有 新 主题 加 入 时 ， 它 们 会 收 到 通 


我 们 正在 改进 Kafka， 增 加 了 createTopicRequest 请 求 类 型 ， 这 样 客 户 
端 (包括 那些 不 支持 Zookeeper 客户 端的 编程 语言 ) 就 可 以 直接 向 broker 请 求 创 


建新 主题 了 


除了 往 协 议 里 增加 新 的 请 求 类 型 外 ， 我 们 也 会 通过 修改 已 有 的 请 求 类 型 来 给 它们 


增加 新 功能 。 例 如 ， 从 Kafka 0.9.0 到 Kafka 0.10.0， 我 们 希望 能 够 让 客户 端 知道 
谁 是 当前 的 控制 器 于 是 把 控制 器 信息 添加 到 元 数据 响应 消息 里 。 我 们 还 在 元 数 


据 请 求 消 


从 


肖 息 和 啊 应 消息 里 添加 了 一 个 新 的 version 字段 。 现 在 ，0.9.0 版 本 的 客户 


端 发 送 的 元 数据 请 求 里 version 为 0 (0.9.0 版 本 客户 端的 version 不 会 是 1) 。 不 


管 是 0.9.0 版 本 的 broker， 还 是 0.10.0 版 本 的 broker， 它们 都 知道 应 该 返回 version 


为 0 的 响应 ， 也 就 是 不 包含 控制 器 信息 的 响应 。0.9.0 版 本 的 客户 端 不 需要 控制 絮 
的 信息 ， 而 且 也 没 必要 知道 如 何 去 解 析 它 。0.10.0 版 本 的 客户 端 会 发 送 version 为 


1 的 元 数据 请 求 ，0.10.0 版 本 的 broker 会 返回 version 为 1 的 啊 应 ， 


里 面包 含 了 控 


制 器 的 信息 。 如 果 0.10.0 版 本 的 客户 端 发 送 version 为 1 的 请 求 给 0.9.0 版 本 的 
broker， 这 个 版 本 的 broker 不 知道 该 如 何 处 理 这 个 请 求 ， 就 会 返回 一 个 错误 。 这 
就 是 为 什么 我 们 建议 在 升级 客户 端 之 前 先 升 级 broker， 因 为 新 的 broker 知道 如 何 


处 理 旧 的 请 求 ， 反 过 来 则 不 然 。 


ll 


我 们 在 0.10.0 版 本 的 Kafka 里 加 入 了 ApiVersionRequest 客户 端 可 以 询 

问 broker 支持 哪些 版 本 的 请 求 ， 然 后 使 用 正确 的 版 本 与 broker 通信 。 如 果 能 够 正 

0 oe ee ee 
协议 。 


5.5 ”物理 存储 


Kafka 的 基本 存储 单元 是 分 区 。 分 区 无 法 在 多 个 broker 间 进 行 再 细 分 ， 也 无 法 在 
同一 个 broker 的 多 个 磁盘 上 进行 再 细 分 。 所 以 ， 分 区 的 大 小 受到 单个 挂 载 点 可 用 
空间 的 限制 〈 一 个 挂 载 点 由 单个 磁盘 或 多 个 磁盘 组 成 ， 如 果 配 置 了 JBOD， 就 是 
单个 磁盘 ， 如 果 配 置 了 RAID， 就 是 多 个 磁盘 。 请 参考 第 2 章 ) 。 


在 配置 Kafka 的 时 候 ， 管 理 员 指定 了 一 个 用 于 存储 分 区 的 目录 清单 一 一 也 就 是 
log .dirs 参数 的 值 (不 要 把 它 与 存放 错误 日 志 的 目录 混淆 了 ， 日志 目录 是 配置 
在 log4j.properties 文件 里 的 ) 。 该 参数 一 般 会 包含 每 个 挂 载 点 的 目录 。 


接 下 来 我 们 会 介绍 Kafka 是 如 何 使 用 这 些 目录 来 存储 数据 的 。 首 先 ， 我 们 要 知道 
数据 是 如 何 被 分 配 到 集群 的 broker 上 以 及 broker 的 目录 里 的 。 然 后 ， 我 们 还 要 知 
道 broker 是 如 何 管理 这 些 文件 的 ， 特 别 是 如 何 进 行 数据 保留 的 。 随 后 ， 我 们 会 深 
入 探讨 文件 和 索引 格式 。 最 后 ， 我 们 会 讨论 日 志 压 缩 及 其 工作 原理 。 日 志 压 缩 是 
Kafka 的 一 个 高 级 特性 ， 因 为 有 了 这 个 特性 ，Kafka 可 以 用 来 长 时 间 地 保存 数据 。 


5.5.1 分 区 分 配 


在 创建 主题 时 ，Kafka 首先 会 决定 如 何在 broker 间 分 配 分 区 。 假 设 你 有 6 个 
broker， 打 算 创建 一 个 包含 10 个 分 区 的 主题 ， 并 且 复 制 系数 为 3。 那么 Kafka 就 
会 有 30 个 分 区 副本 ， 它 们 可 以 被 分 配给 6 个 broker 。 在 进行 分 区 分 配 时 ， 我 们 要 
达到 如 下 的 目标 。 


。 在 broker 间 平 均 地 分 布 分 区 副本 。 对 于 我 们 的 例子 来 说 ， 束 是 要 保证 每 个 
broker 可 以 分 到 5 个 副本 。 

。 人 确保 每 个 分 区 的 每 个 副本 分 布 在 不 同 的 broker 上 。 假 设 分 区 0 的 首领 副本 在 
broker 2 上 ， 那 么 可 以 把 跟随 者 副本 放 在 broker 3 和 broker 4 上 ， 但 不 能 放 在 
broker 2 上 ， 也 不 能 两 个 都 放 在 broker 3 上 。 

。 如 果 为 broker 指定 了 机 架 信 息 ， 那 么 尽 可 能 把 每 个 分 区 的 副本 分 配 到 不 同 机 
< broker 上 。 这 样 做 是 为 了 保证 一 个 机 架 的 不 可 用 不 会 导致 整体 的 分 区 不 
口 O 


为 了 实现 这 个 目标 ， 我 们 先 随机 选择 一 个 broker (假设 是 4) ， 然 后 使 用 轮 询 的 
方式 给 每 个 broker 分 配 分 区 来 确定 首领 分 区 的 位 置 。 于 是 ， 首 领 分 区 0 会 在 
broker 4 上 上， 首领 分 区 工会 在 broker 5 上 ， 首 领 分 区 2 会 在 broker0 上 (只 有 6 个 
broker) ， 并 以 此 类 推 。 然 后 ， 我 们 从 分 区 首领 开始 ， 依 次 分 配 跟 随 者 副本 。 如 
果 分 区 0 的 首领 在 broker 4 上 ， 那 么 它 的 第 一 个 跟随 者 副本 会 在 broker5 上 ， 第 


二 个 跟随 者 副本 会 在 broker 0 上 。 分 区 1 的 首领 在 broker 5 上， 那么 它 的 第 一 个 
跟随 者 副本 在 broker 0 上 ， 第 二 个 跟随 者 副本 在 broker 1 上 。 


如 果 配 置 了 机 架 信息 ， 那 么 就 不 是 按照 数字 顺序 来 选择 broker 了 ， 而 是 按照 交替 
机 架 的 方式 来 选择 broker。 假 设 broker 0、broker 1 和 broker 2 放置 在 同一 个 机 架 
上 ，Pbroker 3、broker 4 和 broker 5 分 别 放置 在 其 他 不 同 的 机 架 上 。 我 们 不 是 按照 
从 0 到 5 的 顺序 来 选择 broker， 而 是 按照 0，3，1，4，2，5 的 顺序 来 选择 ， 这 样 
每 个 相 邻 的 broker 都 在 不 同 的 机 架 上 (如 图 5-5 所 示 ) 。 于 是 ， 如 果 分 区 0 的 首 
领 在 broker 4 上 上， 那么 第 一 个 跟随 者 副本 会 在 broker 2 上 ， 这 两 个 broker 在 不 同 
的 机 架 上 。 如 果 第 一 个 机 架 下 线 ， 还 有 其 他 副本 仍然 活跃 着 ， 所 以 分 区 仍然 可 
用 。 这 对 所 有 副本 来 说 都 是 一 样 的 ， 因 此 在 机 架 下 线 时 仍然 能 够 保证 可 用 性 。 


机 染 1 机 染 2 


broker0 broker2 


L 国 


broker1l 


图 5-5: 分 配给 不 同 机 架 broker 的 分 区 和 副本 


为 分 区 和 副本 选 好 合适 的 broker 之 后 ， 接 下 来 要 决定 这 些 分 区 应 该 使 用 哪个 目 
录 。 我 们 单独 为 每 个 分 区 分 配 目录 ， 规 则 很 简单 :计算 每 个 目录 里 的 分 区 数量 ， 
新 的 分 区 总 是 被 添加 到 数量 最 小 的 那个 目录 里 。 也 就 是 说 ， 如 采 添 加 了 一 个 新 磁 
盘 ， 所 有 新 的 分 区 都 会 被 创建 到 这 个 磁 副 上 “。 因 为 在 完成 分 配 工作 之 前 ， 新 磁盘 


的 分 区 数量 总 是 最 少 的 。 


俯 、 注意 磁盘 空间 


要 注意 ， 在 为 broker 分 配 分 区 时 并 没有 考虑 可 用 空间 和 工作 负载 问题 ， 但 在 
将 分 区 分 配 到 磁盘 上 时 会 考 虚 分 区 数量 ， 不 过 不 考虑 分 区 大 小 。 也 就 是 说 ， 
如 泉 有 些 broker 的 磁盘 空间 比 其 他 broker 要 大 (有 可 能 是 因为 集群 局 时 使 用 
了 丁 旧 服务 器 和 新 服务 器 ) ， 有 些 分 区 异常 大 ， 或 者 同一 人 1 Dioker [守信 小 个 
同 的 位 一 ， 那 么 在 分 配 分 区 时 要 格外 小 心 。 在 后 面 的 章节 中 ， 我 们 会 讨论 
Kafka 管理 员 该 如 何 解决 这 种 proker 负载 不 均衡 的 问题 。 


5.5.2 ”文件 管理 


保留 数据 是 Kafka 的 一 个 基本 特性 ，Kafka 不 会 一 直 保 留 数 据 ， 也 不 会 等 到 所 有 
消费 者 都 读 取 了 消 轧 之 后 才 删 除 消息 。 相 反 ，Kafka 管理 员 为 每 个 主题 配置 了 数 
和 个 限 ， 规 定制 了 之 吉 以 名 多 长 时 间 或 者 清理 数据 之 前 可 以 保 
留 是 人 4 小 


办 为 在 一 个 大 文件 里 查找 和 删除 消 恩 是 很 费时 的 ， 也 很 容易 出 错 ， 所 以 我 们 把 分 
区 分 成 否 干 个 片段 。 默 认 情 况 下 ， 每 个 片段 包含 1GB 或 一 周 的 数据 ， 以 较 小 的 
那个 为 准 。 在 broker 往 分 区 写 入 数据 时 ， 如 采 达 到 片段 上 限 ， 束 关闭 当前 文件 ， 
并 打开 二 个 新 区 件 3 


当前 正在 写 入 数据 的 片段 叫 作 活路 片段。 活动 片段 永远 不 会 被 删除 ， 所 以 如 果 你 
要 保留 数据 1 天， 但 片段 里 包含 了 5 天 的 数据 ， 那 么 这 些 数 据 会 被 保留 5 天 ， 
为 在 片段 被 关闭 之 前 这 些 数 据 无 法 被 删除 。 如 果 你 要 保留 数据 一 周 ， 而 且 每 天 使 
用 一 个 新 片段 ， 那 么 你 束 会 看 到 ， 每 天 在 使 用 一 个 新 片段 的 同时 会 删除 一 个 最 老 
的 片段 一 一 所 以 大 部 分 时 间 该 分 区 会 有 7 个 片段 存在 。 


我 们 在 第 2 章 讲 过 ，broker 会 为 分 区 里 的 每 个 片段 打开 一 个 文件 句柄 ， 哪 怕 片 段 
人 加 认 过 多 的 文件 何 柄 所 以 操作 系统 必须 根据 实际 情况 
调 优 。 


5.5.3 ”文件 格式 


我 们 把 Kafka 的 消息 和 偏 移 量 保存 在 文件 里 。 保 存在 磁盘 上 的 数据 格式 与 从 生产 
者 发 送 过 来 或 者 发 送 给 消费 者 的 消息 格式 是 一 样 的 。 因 为 使 用 了 相同 的 消息 格式 
进行 磁盘 存储 和 网 络 传输 ，Kafka 可 以 使 用 零 复 制 技术 给 消费 者 发 送 消 息 ， 同 时 
避免 了 对 生产 者 已 经 压缩 过 的 消息 进行 解 讨 和 再 压缩 。 


除了 键 、 值 和 偏 移 量 外 ， 消 息 里 还 包含 了 消息 大 小 、 校 验 和 、 消息 格式 版 本 号 、 
压缩 算法 (Snappy、GZip 或 LZ4) 和 时 间 戳 〈 在 0.10.0 版 本 里 引入 的 ) 。 时 间 截 
人 也 可 以 是 消息 到 达 broker 的 时 间 ， 这 个 是 可 配置 


如 有 果 生 产 者 发 送 的 是 压缩 过 的 消息 ， 那 么 同一 个 批 次 的 消息 会 被 压缩 在 一 起 ， 被 
当 作 "“ 包 装 消息 * 进 行 发 送 (如 图 5-6 所 示 ) 。 于 是 ，broker 就 会 收 到 一 个 这 样 的 


第 其 


人 


消息 ， 然 后 再 把 它 发 送 给 消费 者 。 ”少帝 宣 在 解压 这 压 这 个 消息 之 后 ， 会 看 到 整个 批 次 
的 消息 ， 它 们 都 有 自己 的 时 间 惟 和 偏 移 量 


消息 


值 的 
nm 


吧 -一 一 一 一 一 
仿 移 量 呆 术 数 | 庄 纺 和 解压 | 时 间 栅 | 值 的 peas 三 入 | | 风 |  | 妆 | 
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包装 消息 oy 
3 个 压缩 过 的 消息 


图 5-6: 普通 消息 和 包装 消息 


也 就 是 说 ， 如 果 在 生产 者 端 使 用 了 压缩 功能 (极力 推荐 ) ， 那么 发 送 的 批 次 越 

大 ， 束 意味 着 在 网 络 传输 和 磁盘 存储 方面 会 获得 越 好 的 压缩 性 能 ， 同 时 意味 着 如 
果 修 改 了 消费 者 使 用 的 消息 格式 (例如 ， 在 清 息 里 增加 了 时 间 蕉 ) ， 那么 网 络 传 
AN 而 且 broker 要 知道 如 何 处 理 包含 了 两 种 消息 


Kafka 附带 了 一 个 叫 DumpLogSegment 的 工具 ， 可 以 用 它 查 看 片段 的 内 容 。 它 可 
以 显示 每 个 消息 的 偏 移 量 、 校 验 和 、 魔 术 数 字 广 、 消 息 大 小 和 压缩 算法 。 运 行 i 
工具 的 方法 如 下 : 


bin/kafka-run-class.sh kafka.tools.DumpLogSegments 


如 果 使 用 了 - -deep-iteration 参数 ， 可 以 显示 被 压缩 到 包装 消息 里 的 消息 。 


5.5.4 索引 


肖 费 者 可 以 从 Kafka 的 任意 可 用 偏 移 量 位 置 开始 读 取 消息 。 假 设 消费 者 要 读 取 从 
偏 移 时 100 开始 的 1MB 消息 ， 那 么 broker 必须 立即 定位 到 偏 移 量 100 (可 能 是 在 
分 区 的 任意 一 个 片段 里 ) ， 然 后 开始 从 这 个 位 置 读 取消 息 。 为 了 帮助 broker 更 快 
地 定位 到 指 定 的 偏 移 量 ，Kafka 为 每 个 分 区 维护 了 一 个 索引 。 索 引 把 偏 移 量 映射 
到 片段 文件 和 偏 移 量 在 文件 里 的 位 置 。 


索引 也 被 分 成 片段 ， 所 以 在 删除 消息 时 ， 也 可 以 删除 相应 的 索引 。 Kafka 不 维护 
索引 的 校 验 和 。 如 果 索 引出 现 损坏 ，Katfka 会 通过 重新 读 取 消息 并 录制 偏 移 量 和 
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位 置 来 重新 生成 索引 。 如 果 有 必要 ， 管 理 员 可 以 删除 索引 ， 这 样 做 是 绝对 安全 
的 ，Kafka 会 目 动 重新 生成 这 些 索 引 。 


5.5.5 “清理 


一 般 情 况 下 ，Kafka 会 根据 设置 的 时 间 保 留 数据 ， 把 超过 时 效 的 旧 数 据 删除 掉 。 

不 过 ， 试 想 一 下 这 样 的 场景 ， 如 果 你 使 用 Kafka 保存 客户 的 收 货 地 址 ， 那 么 保存 
客户 的 最 新 地 址 比 保存 客户 上 周 甚至 去 年 的 地 址 要 有 意义 得 多 ， 这 样 你 就 不 用 担 
心 会 用 错 旧 地 址 ， 而 且 短 时 间 内 容 户 也 不 会 修改 新 地 址 。 另 外 一 个 场景 ， 一 个 应 
用 程序 使 用 Kafka 保存 它 的 状态 ， 每 次 状态 发 生变 化 ， 它 就 把 状态 写 入 Kafka 。 
在 应 用 程序 从 崩溃 中 恢复 时 ， 它 从 Kafka 读 取 消息 来 恢复 最 近 的 状态 。 在 这 种 情 
况 下 ， 应 用 程序 只 关心 它 在 月 溃 前 的 那个 状态 ， 而 不 关心 运行 过 程 中 的 那些 状 


Kafka 通过 改变 主题 的 保留 策略 来 满足 这 些 使 用 场景 。 早 于 保留 时 间 的 旧事 件 会 
被 删除 ， 为 每 个 键 保 留 最 新 的 值 ， 从 而 达到 清理 的 效果 。 很 显然 ， 只 有 当 应 用 程 
序 生 成 的 事件 里 包含 了 键 值 对 时 ， 为 这 些 主题 设置 compact 策略 才 有 意义 。 如 
果 主 题 包 含 nulL1 键 ， 清 理 就 会 失败 。 


5.5.6 ”清理 的 工作 原理 
每 个 日 志 片 段 可 以 分 为 以 下 两 个 
干净 的 部 分 


这 些 消息 之 前 被 清理 过 ， 每 个 键 只 有 一 个 对 应 的 值 ， 这 个 值 是 上 一 次 清理 时 
保留 下 来 的 。 


污浊 的 部 分 
这 些 消 息 是 在 上 一 次 清理 之 后 写 入 的 。 两 个 部 分 的 日 志 片 段 示意 如 图 5-7 所 


示 O 
Lessonzlslsl 
~ 人 人 ~ 


这 一 部 分 是 “干净 ”的 ， 这 部 分 是 日 志 的 
注意 这 里 缺失 了 一 些 污浊 部分， 各 
偏 移 量 ， 它 们 是 被 清 6 会 被 请 理 。 
理 掉 了 。 


图 5-7: 包含 干净 和 污浊 两 个 部 分 的 分 区 


如 果 在 Kafka 启动 时 启用 了 清理 功能 (通过 配置 1o0g,cleaner .enabled 参 
数 ) ， 每 个 broker 会 启动 一 个 清理 管理 器 线程 和 多 个 清理 线程 它们 负责 执行 清 
这 些 线程 会 选择 污浊 率 (污浊 消息 占 分 区 总 大 小 的 比例 ) 较 高 的 分 区 进 
行 清理 。 


为 了 清理 分 区 ， 清 理 线程 会 读 取 分 区 的 污浊 部 分 ， 并 在 内 存 里 创建 一 个 map。 
map 里 的 每 个 元 素 和 包含 了 消息 键 的 散 列 值 和 消息 的 偏 移 量 ， 键 的 散 列 值 是 16B， 
加 上 偏 移 量 总 共 是 24B。 如 果 要 清理 一 个 1GB 的 日 志 片 段 ， 并 假设 每 个 消息 大 小 
为 1IKB， 那 么 这 个 片段 就 包含 一 百 万 个 消 轧 ， 而 我 们 只 需要 用 24MB 的 map 就 可 
以 清理 这 个 片段 。 (如 果 有 重复 的 键 ， 可 以 重用 散 列 项 ， 从 而 使 用 更 少 的 内 

存 。) 这 是 非常 高 效 的 ! 


管理 员 在 配置 Kafka 时 可 以 对 map 使 用 的 内 存 大 小 进行 配置 。 每 个 线程 都 有 自己 
的 map， 而 这 个 参数 指 的 是 所 有 线程 可 使 用 的 内 存 总 大 小 。 如 果 你 为 map 分 配 了 
1GB 内 存 ， 并 使 用 了 5 个 清理 线程 ， 那 么 每 个 线程 可 以 使 用 200MB 内 存 来 创建 

自己 的 map。Kafka 并 不 要 求 分 区 的 整个 污浊 部 分 来 适应 这 个 map 的 大 小 ， 但 要 
求 至 少 有 一 个 完整 的 片段 必须 符合 。 如 果 不 符合 ， 那 么 Kafka 就 会 报错 ， 管 理 员 

要 么 分 配 更 多 的 内 存 ， 要 么 减少 清理 线程 数量 。 如 果 只 有 人 少 部 4 分 片段 可 以 完全 符 
合 ，Kafka 将 从 最 旧 的 片段 开始 清理 ， 等 竺 下 一 次 清理 剩余 的 部 分 


清理 线程 在 创建 好 偏 移 量 map 后 ， 开 始 从 干净 的 片段 处 读 取 消息 ， 从 最 旧 的 消息 
把 它们 的 内 容 写 map 里 的 内 罕 进 行 比 对 。 它 会 检查 消息 的 键 是 否 存在 于 
如 采 不 存在 ， 那么 说 明 消 息 的 值 古 最 新 的 ， 吕 把 消息 复制 到 替换 片段 

下 如 果 键 已 存在 ， 消息 会 被 忽略 ， 因 为 在 分 区 的 后 部 已 经 有 一 个 具有 相同 键 的 
消息 存在 。 在 复制 完 所 有 的 消息 之 后 ， 我 们 束 将 蔡 换 片段 与 原始 片段 进行 交换 ， 
然后 开始 清理 下 一 个 片段 。 完 成 整个 清理 过 程 之 后 ， 每 个 键 对 应 一 个 不 同 的 消息 
一 一 这 些 消息 的 值 都 是 最 新 的 。 清 理 前 后 的 分 区 片段 如 图 5-8 所 示 。 
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图 5-8: 清理 前 后 的 分 区 片段 
5.5.7 ”被 删除 的 事件 


如 有 果 只 为 每 个 键 保留 最 近 的 一 个 消 轧 ， 那 么 当 需 要 删除 某 个 特定 键 所 对 应 的 所 有 


消息 时 ， 我 们 该 怎么 办 ? 这 种 情况 是 有 可 能 发 生 的 ， 比 如 一 个 用 户 不 再 使 用 我 
的 服务 ， 那 么 完全 可 以 把 与 这 个 用 户 相关 的 所 有 信息 从 系统 中 删除 。 


为 了 彻底 把 一 个 键 从 系统 里 删除 ， 应 用 程序 必须 发 送 一 个 包含 该 键 且 值 为 nul 


们 


1 


的 消息 。 清 理 线 程 发 现 该 消息 时 ， 会 完 进行 常规 的 清理 ， 只 保留 值 为 null 的 消 
息 。 该 消息 (被 称 为 医 碑 消息 ) 会 被 保留 一 段 时 间 ， 时 间 长 短 是 可 配置 的 。 在 这 


期 间 ， 消 费 者 可 以 看 到 这 个 墓碑 消息 ， 并 且 发 现 它 的 值 已 经 被 删除 。 于 是 ， 如 


证 
消费 者 往 数据 库 里 复制 Kafka 的 数据 ， 当 它 看 到 这 个 墓碑 消息 时 ， 就 知道 应 该 要 


把 相关 的 用 户 信息 从 数据 库 里 删除 。 在 这 个 时 间 段 过 后 ， 清 理 线 程 会 移 除 这 个 
碑 消 息 ， 这 个 键 也 将 从 Kafka 分 区 里 消失 。 重 要 的 是 ， 要 留 给 消费 者 足够 多 的 
间 ， 让 他 看 到 墓碑 消息 ， 因 为 如 果 消 费 者 离线 几 个 小 时 并 错过 了 墓碑 消息 ， 驶 
人 


5.5.8” 何 时 会 清理 主题 
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就 像 delete 策略 不 会 删除 当前 活跃 的 片段 一 样 ，compact 策略 也 不 会 对 当前 
片段 进行 清理 。 只 有 旧 片 段 里 的 消息 才 会 被 清理 。 


在 0.10.0 和 更 早 的 版 本 里 ，Kafka 会 在 包含 脏 记 录 的 主题 数量 达到 50% 时 进行 清 
理 。 这 样 做 的 目的 是 避免 太 过 频繁 的 清理 (因为 清理 会 影响 主题 的 读 写 性 能 ) ， 
同时 也 避免 存在 太 多 脏 记 录 (因为 它们 会 占用 磁盘 空间 ) 。 消费 50% 隐 辜 于 空间 
0 这 是 个 合理 的 折 中 ， 管 理 员 也 可 以 对 它 
进行 调整 。 


我 们 计划 在 未 来 的 版 本 中 加 入 视 限 期 ， 在 视 限 期 内 ， 我 们 保证 消息 不 会 被 清理 。 
3 个 消息 的 应 用 程序 来 说 ， 它 们 就 有 了 足够 的 上 时间， 即使 时 间 
滞后 


5.6 ”总 结 
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我 们 无 法 在 这 一 章 里 洱 盖 所 有 的 内 容 ， 但 硕 望 大 家 能 够 对 我 们 在 这 个 项 目 上 所 做 
的 设计 和 优化 有 所 了 解 ， 同 时 本 章 也 为 大 家 解释 了 在 使 用 Kafka 时 可 能 碰 到 的 一 
些 隆 梁 难 懂 的 现象 和 参数 配置 问题 。 


如 果 大 家 真 的 对 Kafka 内 部 原理 感 兴趣 ， 唯 一 的 途径 是 阅读 它 的 源 代码 。Kafka 

开发 考 邮 件 组 (dev@kafka.apache. or 是 一 个 非常 友好 的 社区 ， 在 那里 会 有 人 回 
答 有 关 Kafka 工作 原理 的 问题 。 或 许 你 在 阅读 源 代 码 时 还 能 够 修复 一 些 缺陷 一 
开源 社区 的 大 门 总 是 向 贡献 者 敞开 。 


第 6 章 可 车 的 数据 传递 


对 于 系统 来 说 ， 可 靠 的 数据 传递 不 能 成 为 马后炮 。 与 性 能 一 样 ， 在 系统 的 设计 之 
蕊 就 应 该 考虑 可 靠 性 问题 ， 而 不 能 在 事后 才 来 考 虚 。 而 且 ， 可 靠 性 是 系统 的 一 个 
属性 ， 而 不 是 一 个 独立 的 组 件 ， 所 以 在 讨论 Kafka 的 可 靠 性 保证 时 ， 还 息 要 公 素 
统 的 整体 出 发 。 说 到 可 靠 性 ， 那 些 与 Kafka 集成 的 系统 与 Kafka 本 身 一 样 量 3 
es 所 以 它 不 只 是 某 个 个 体 的 事情 。Kafka 管理 

、 Linux 系统 管理 员 、 网 络 和 存储 管理 员 以 及 应 用 程序 开发 者 ， 所 有 人 必须 协 
向 作战 才能 构建 一 个 可 靠 的 系统 。 


Kafka 在 数据 传递 可 靠 性 方面 具备 很 大 的 灵活 性 。 我 们 知道 ，Kafka 可 以 被 用 在 很 
多 场景 里 ， 从 跟踪 用 户 点 击 动作 到 处 理 信 用 卡 支 付 操作 。 有 些 场景 要 求 很 高 的 可 
靠 性 ， 而 有 些 则 更 看 重 速度 和 简便 性 。Kafka 被 设计 成 高 度 可 配置 的 ， 而 且 它 的 
客户 端 API 可 以 满足 不 同 程度 的 可 靠 性 需求 。 


不 过 


灵活 性 有 时 候 也 很 容易 让 人 掉 入 陷阱 。 有 时 候 ， 你 的 系统 看 起 来 是 可 靠 


的 ， 但 实际 上 有 可 能 不 是 。 本 童 和 讨论 各 种 各 梓 的 可 徘 性 及 其 在 Kafka 场景 的 
然后 介绍 Kafka 的 复制 功能 ， 以 及 它 是 如 何 提高 系统 可 靠 性 的 。 随 后 探讨 
如 何 配置 Kafka 的 broker 和 主题 来 满足 不 周 的 使 用 场景 需求 ， 也 会 涉及 生产 者 和 


含义 。 


消费 者 以 及 如 何在 各 种 可 靠 性 场景 里 使 用 它们 。 最 后 介绍 如 何 验 证 系统 的 可 靠 
性 ， 因 为 系统 的 可 靠 性 涉及 方方面面 一 一 一 些 前 提 条 件 必须 先 得 到 满足 。 


6.1 


可 靠 性 保证 


在 讨论 可 靠 性 时 ， 我 们 一 般 会 使 用 保证 这 个 词 ， 


境 下 外 


ACID 
保证 。 


ACID 


BE 够 发 生 一 致 的 行为 。 


它 是 指 确保 系统 在 各 种 不 同 的 环 


大 概 是 大 家 最 熟悉 的 一 个 例子 ， 它 是 关系 型 数据 库 普 遍 文 持 的 标准 可 靠 性 


指 的 是 原子 性 、 一 致 性 、 隔 离 性 和 持久 性 


° 如果 一 个 供应 商 说 他 们 的 数 


据 库 遵循 ACID 规范 ， 其 实 就 是 在 说 他 们 的 数据 库 支持 与 事务 相关 的 行为 。 


有 了 这 些 保证 ， 我 们 才能 相信 关系 型 数据 库 的 事务 特性 可 以 确保 应 用 程序 的 安 
全 。 我 们 知道 系统 承诺 可 以 做 到 些 什么 ， 也 知道 在 不 同 条 件 下 它们 会 发 生 怎样 的 


行为 


。 我们 了 解 这 些 保证 机 制 ， 并 基于 这 些 保证 机 制 开 发 安全 的 应 用 程序 。 


所 以 ， 了 解 系统 的 保证 机 制 对 于 构建 可 靠 的 应 用 程序 来 说 至 关 重 要 ， 这 也 是 能 够 


在 不 同 条 件 下 解释 系统 行为 的 前 提 。 那 么 Kafka 可 以 在 哪些 方面 作出 保证 呢 ? 


。 Kafka 可 以 保证 分 


区 消息 的 顺序 。 如 果 使 用 同一 个 生产 考 往 同一 个 分 区 写 入 
消息 ， 而 且 消 息 BE \ A 之 后 写 入 ， 那 么 Kafka 可 以 保证 消息 B 的 偏 移 
a 而 且 消 费 考 会 先 读 取 消息 A 再 读 取消 息 B。 


只 有 当 消 息 被 写 入 分 区 的 所 有 同步 副本 时 (但 


不 一 定 要 写 入 磁盘 ) ， 它 才 被 


认 驻 是 "已 提交 ?的 生产 者 可 以 选择 接收 不 同类 型 的 确认 ， 比 如 在 消息 被 完 
全 提交 时 的 确认 ， 或 者 在 消息 被 写 入 首领 副本 时 的 确认 ， 或 者 在 消息 被 发 送 

到 网 络 时 的 确认 。 
。 只 要 还 有 一 个 副本 是 活路 的 ， 那 和 已 圣 提交 的 消息 束 不 会 丢失 。 


明 费 者 只 能 读 取 已 经 提交 的 消息 


。 并 


这 学者 


基本 的 保证 机 制 可 以 用 来 构建 可 靠 的 系统 ， 但 


仅仅 依赖 它们 是 无 法 保证 系统 


全 可 靠 的 。 构 建 一 个 可 靠 的 系统 需要 作出 一 些 权衡 ，Kafka 管理 员 和 开发 者 可 


以 在 配置 参数 上 作出 权衡 


油 计 


消 


从 而 得 到 他 们 想 要 达到 的 可 靠 性 。 这 种 权衡 一 般 是 指 
县 存储 的 可 靠 性 和 一 致 性 的 重要 程度 与 可 用 性 、 高 吞吐 量 、 低 延迟 和 硬件 成 本 


的 重要 程度 之 间 的 权衡 。 下 面 将 介绍 Kafka 的 复制 机 制 ， 并 探讨 Kafka 是 如 何 实 


现 可 靠 性 的 ， 最 后 介绍 一 些 重 要 的 配置 参数 。 


6.2 


复制 


Kafka 的 复制 机 制 和 分 区 的 多 副本 架构 是 Kafka 可 靠 性 保证 的 核心 。 把 消息 写 入 
多 个 副本 可 以 使 Kafka 在 发 生 朋 演 时 仍 能 保证 消息 的 持久 性 。 


我 们 已 经 在 第 5 章 深入 解释 了 Kafka 的 复制 机 制 ， 现 在 重新 回顾 一 下 主要 内 容 。 


a 个 分 区 ， 分 区 是 基 
Kafka 可 以 保证 分 区 于 的 事件 息 有 月 的 ， 
不 杀 用 ) “每 个 分 区 可 以 有 多 个 副本 


:本 和 数据 es 
分 区 可 以 在 线 【可 用 
其 中 一 个 副本 是 首领 


接 发 送 给 首领 副本 ， 或 者 直接 从 首 人 的 其 他 副本 只 


， 并 及 时 复制 最 新 的 事件 。 当 首 领 员 


分 区 存储 在 单个 磁盘 上 ， 


， 也 可 以 离线 
。 所 有 的 事件 都 直 
需要 与 首领 保持 


副本 不 可 用 时 ， 其 中 一 个 同步 副本 将 成 为 


分 区 首领 是 同步 副本 ， 而 对 于 跟随 者 副本 来 说 ， 


征 同 步 的 。 


。 与 Zookeeper 之 间 有 一 个 活跃 的 会 话 ， 也 就 是 说 ， 


内 向 Zookeeper 发 送 过 心跳 。 
。 在 过 去 的 10s 内 (可 配置 


Se 


从 首领 那里 获取 过 消息 。 


它 在 过 去 的 6s (可 配置 ) 


已 需要 满足 以 下 条 件 才能 被 认为 


。 在 过 去 的 10s 内 从 首领 那里 获取 过 最 新 的 消息 。 光 从 首领 那里 获取 消息 十 不 


够 的 ， 它 还 必须 是 几乎 零 延 迟 的 。 


如 果 跟 随 者 副本 不 能 满足 以 上 任何 一 点 ， 比 如 与 Zookeeper 断 开 连接 ， 或 者 不 再 
获取 新 消息 ， 或 者 获取 消息 请 后 了 10s 以 上 ， 那么 它 就 被 认为 是 不 同步 的 。 一 个 


不 同步 的 副本 通过 与 Zookeeper 重新 建立 连接 ， 并 从 首领 那里 获取 最 新 消息 ， 可 
以 重新 变 成 同步 的 。 这 个 过 程 在 网 络 出 现 临 时 间 题 并 很 快 得 到 修复 的 情况 下 会 


快 完 成 ， 但 如 果 broker 发 生 朋 演 就 需要 较 长 的 时 间 。 


做、 非 同 步 副 本 


很 


阔 


如 采 一 个 或 多 个 副本 在 同步 和 非 同步 状态 之 间 快 速 切换 ， 说 明 集 群 内 部 出 现 


了 问题 ， 通 常 是 Java 不 恰当 的 垃圾 回收 配置 导致 的 。 不 恰当 的 垃圾 回收 配置 
会 造成 几 秒 钟 的 停顿 ， 从 而 让 broker 与 Zookeeper 之 间断 开 连 接 ， 最 后 变 成 


不 同步 的 ， 进 而 发 生 状 态 切换 。 


个 清 后 的 同步 副本 会 导致 生产 者 和 消费 者 变 慢 ， 


CD 


因为 在 消息 被 认为 已 提交 之 


前 ， 客 户 端 会 等 待 所 有 同步 副本 接收 消息 。 而 如 果 一 个 副本 不 再 同步 了 ， 我 们 就 


不 再 关心 它 是 否 已 经 收 到 消息 。 虽 然 非 同步 副本 同样 滞后 ， 但 


它 并 不 会 对 性 能 产 


生 任何 影响 。 但 是 ， 更 少 的 同步 副本 意味 着 更 低 的 有 效 复 制 系数 ， 在 发 生 宕 机 时 


丢失 数据 的 风险 更 大 。 


区 


我 们 将 在 下 一 节 讲 解 在 实际 项 目 中 这 将 ; 


章 味 着 什么 。 


6.3 “broker 配 置 


broker 有 3 个 配置 参数 会 影响 Kafka 消息 存储 的 可 靠 性 。 与 其 他 配置 参数 一 样 ， 
它们 可 以 应 用 在 broker 级 别 ， 用 于 控制 所 有 主题 的 行为 ， 也 可 以 应 用 在 主题 级 
别 ， 用 于 控制 个 别 主题 的 行为 。 


在 主题 级 别 控制 可 靠 性 ， 意 味 着 Kafka 集群 可 以 同时 拥有 可 靠 的 主题 和 非 可 靠 的 
主题 。 例 如 ， 在 银行 里 ， 管 理 员 可 能 把 整个 集群 设置 为 可 靠 的 ， 但 把 其 中 的 一 个 
主题 设置 为 非 可 靠 的 ， 用 于 保存 来 自 客户 的 投诉 ， 因 为 这 些 消息 是 允许 丢失 的 。 


让 我 们 来 逐个 介绍 这 些 配置 参数 ， 看 看 它们 如 何 影响 消息 存储 的 可 靠 性 ， 以 及 
Kafka 在 哪些 方面 作出 了 权衡 。 


6.3.1 复制 系数 


主题 级 别 的 配置 参数 是 repLication,factor ， 而 在 broker 级 别 则 可 以 通过 
default,replLication.factor 来 配置 自动 创建 的 主题 。 


在 这 本 书 里 ， 我 们 假设 主题 的 复制 系数 都 是 3， 也 就 是 说 每 个 分 区 总 共 会 被 3 个 
2 ok 复制 3 次。 这 样 的 假设 是 合理 的 ， 因 为 Kafka 的 默认 复制 系数 就 是 
\ 过 用 户 可 以 修改 它 。 即 使 是 在 主题 创建 之 后 ， 也 可 以 通过 新 增 或 移 除 副 
本 来 改 伙 复制 系数 


如 果 复 制 系数 为 YN ， 那 么 在 N -1 个 broker 失效 的 情况 下 ， 仍 然 能 够 从 主题 读 取 

数据 或 向 主 题写 入 数据 。 所 以 ， 更 高 的 复制 系数 会 带 来 更 高 的 可 用 性 、 可 靠 性 和 

更 少 的 故障 。 另 一 方面 ， 复 制 系数 N 需要 至 少 N 个 broker， 而 且 会 有 N 个 数据 副 

人 N 倍 的 磁盘 空间 。 我 们 一 般 会 在 可 用 性 和 存储 硬件 之 间 
jo 


那么 该 如 何 确定 一 个 主题 需要 儿 个 副本 呢 ? 这 要 看 主题 的 重要 程度 ， 以 及 你 愿意 
付出 多 少 成 本 来 换取 可 用 性 。 有 时候 这 与 你 的 偏执 程度 也 有 点 关系 


如 果 因 broker 重启 导致 的 主题 不 可 用 是 可 接受 的 〈 这 在 集群 里 是 很 正常 的 和 
为 ) ， 那 么 把 复制 系数 设 为 1 就 可 以 了 。 在 作出 这 个 权衡 的 时 候 ， 要 确保 这 样 不 
会 对 你 的 组 织 和 用 户 千 


影响 ， 因为 你 在 三 党 了 硬件 成 本 的 同时 也 降低 了 可 用 性 。 人 复制 系数 为 2 意味 着 
可 以 容忍 1 个 broker 发 生 失 效 ， 看 起 来 已 经 足够 了 。 不 过 要 记 住 ， 有 时 候 1 个 
broker 发 生 失 效 会 导致 集群 不 稳定 (通常 是 旧版 的 Kafka) ， 迫 使 你 重启 另 一 个 
broker 一 一 集群 控制 右 。 也 就 是 说 ， 如 果 将 复制 系数 设 为 2， 就 有 可 能 因为 重 局 等 
问题 导致 集群 不 可 用 。 所 以 这 是 一 个 两 难 的 选择 。 


基于 以 上 长 几 0 我 们 建议 在 要 求 可 用 性 的 场景 里 把 复制 系数 设 为 3。 在 大 多 
数 情况 下 ， ` 过 我 们 也 见 过 有 些 银行 使 用 5 个 副本 ， 以 防 


二 下 


不 测 。 


副本 的 分 布 也 很 重要 。 默 认 情况 下 ，Katfka 会 确保 分 区 的 每 个 副本 被 放 在 不 同 的 
broker 上 。 不 过 ， 有 时 候 这 样 仍然 不 够 安全 。 如 果 这 些 broker 处 于 同一 个 机 染 

上 ,一 旦 机 架 的 交换 机 发 生 故 障 ， 分 区 就 会 不 可 用 ， 这 时 候 把 复制 系数 设 为 多 少 
都 不 管用 。 为 了 避免 机 架 级 别 的 故障 ， 我 们 建议 把 broker 分 布 在 多 个 不 同 的 机 染 
上 ， 并 使 用 broker .rack 参数 来 为 每 个 broker 配置 所 在 机 架 的 名 字 。 如 果 配 置 
了 机 架 名 字 ，Kafka 会 保证 分 区 的 副本 被 分 布 在 多 个 机 架 上 ， 从 而 获得 更 高 的 可 
用 性 。 我 们 已 经 在 第 5 章 介绍 了 如 何在 broker 和 机 架 上 分 布 副本 ， 如 果 你 对 此 感 
兴趣 ， 可 以 参考 第 5 章 的 内 容 。 


6.3.2 不 完全 的 首领 选举 


unclean.leader .election 只 能 在 broker 级 别 (实际 上 是 在 集群 范围 内 ) 进 
行 配置 ， 它 的 默认 值 是 true。 


我 们 之 前 提 到 过 ， 当 分 区 首领 不 可 用 时 ， 一 个 同步 副本 会 被 选 为 新 首领 。 如 有 果 在 
选举 过 程 中 没有 丢失 数据 ， 也 就 是 说 提交 的 数据 同时 存在 于 所 有 的 同步 副本 上 ， 


那么 这 个 选举 就 是 “完全 ”的 


但 如 果 在 首领 不 可 用 时 其 他 副本 都 是 不 同步 的 ， 我 们 该 怎么 办 呢 ? 这 种 情况 会 在 
以 下 两 种 场景 里 出 现 。 


。 分 区 有 3 个 副本 ， 其 中 的 两 个 跟随 者 副本 不 可 用 (比如 有 两 个 broker 发 生 月 
省) 。 这 个 时 候 ， 如 果 生 产 者 继续 往 首领 写 入 数据 ， 所 有 消息 都 会 得 到 确认 
并 被 提交 (因为 此 时 首领 是 唯一 的 同步 副本 ) 。 现 在 我 们 假设 首领 也 不 可 用 
了 (又 一 个 broker 发 生 崩 溃 ) ， 这 个 时 候 ， 如 果 之 前 的 一 个 跟随 者 重新 启 
动 ， 它 就 成 为 了 分 区 的 唯一 不 同步 副本 。 

。 分 区 有 3 个 副本 ， 因 为 网 络 问题 导致 两 个 跟随 者 副本 复制 消息 请 后 ， 所 以 尽 
管 它 们 还 在 复制 消息 ， 但 已 经 不 同步 了 。 首 领 作 为 唯一 的 同步 副本 继续 接收 

0 0 


对 于 这 两 种 场景 ， 我 们 要 作出 一 个 两 难 的 选择 。 


。 如 果 不 同步 的 副本 不 能 被 提升 为 新 首领 ， 那 么 分 区 在 旧 首 领 (最 后 一 个 同步 
人 
儿 A 

。 如 果 不 同步 的 副本 可 以 被 提升 为 新 首领 ， 那 么 在 这 个 副本 变 为 不 同步 之 后 写 
入 旧 首 领 的 消 轧 会 全 部 丢失 ， 导 致 数据 不 一 致 。 为 什么 会 这 样 呢 ? 假设 在 副 
本 0 和 副本 1 不 可 用 时 ， 偏 移 量 100~200 的 消息 被 写 入 副本 2 (首领 ，。 现 
在 副本 2 变 为 不 可 用 的 ， 而 副本 0 变 为 可 用 的 。 副 本 0 只 包含 偏 移 量 0~100 
的 消 思 ， 不 包含 偏 移 量 100~200 的 消息 。 如 有 果 我 们 允许 副本 0 成 为 新 首领 ， 

生产 者 惑 可 以 继续 写 入 数据 ， 消 费 者 可 以 继续 读 取 数据 。 于 是 ， 新 首领 就 有 


O 〇 


一 < 


了 偏 移 量 100~200 的 新 消息 。 这 样 ， 部 分 消费 者 会 读 取 到 偏 移 量 100~200 的 


旧 消 息 ， 部 分 消费 者 会 读 取 到 偏 移 量 100~200 的 新 消息 


还 有 部 分 消费 者 读 


取 的 是 二 者 的 混合 。 这 样 会 导致 非常 不 好 的 结果 ， 比 如 生成 不 准确 的 报表 。 
另外 ， 副 本 2 可 能 会 重新 变 为 可 用 ， 并 成 为 新 首领 的 跟随 者 。 这 个 时 候 ， 它 


会 把 比 当前 首领 旧 的 消息 全 部 删除 ， 而 这 些 消 息 对 于 所 有 消费 者 来 说 都 是 不 


可 用 的 。 


简 而 言 之 ， 如 采 我 们 允许 不 同步 的 副本 成 为 首领 ， 那 么 束 要 承担 丢失 数据 和 出 现 


数据 不 一 致 的 风险 。 如 采 不 允许 它们 成 为 首领 那么 就 要 接受 较 低 的 可 用 性 ， 


为 我 们 必须 等 竺 原先 的 首领 恢复 到 可 用 状态 。 


如 果 把 unclean.leader ,election.enable 设 为 true ， 


就 是 允许 不 同步 的 


副本 成 为 首领 (也 就 是 “不 完全 的 选举 ”) ， 那 么 我 们 将 面临 丢失 消息 的 风险 。 如 
果 把 这 个 参数 设 为 false ， 就 要 等 待 原先 的 首领 重新 上 线 ， 从 而 降低 了 可 用 
性 。 我 们 经 常 看 到 一 些 对 数据 质量 和 数据 一 致 性 要 求 较 高 的 系统 会 禁用 这 种 不 完 


全 的 首领 选举 (把 这 个 参数 设 为 false ) 。 银 行 系统 是 这 方面 最 好 的 例子 ， 大 


部 分 银行 系统 宁愿 选择 在 几 分 钟 甚至 几 个 小 时 内 不 处 理 信 用 卡 文 付 事务 ， 也 不 会 
冒险 处 理 错误 的 消 思 。 不 过 在 对 可 用 性 要 求 较 高 的 系统 里 ， 比 如 实时 点 击 流 分 析 


系统 ， 一 般 会 启用 不 完全 的 首 令 页 选举 。 
6.3.3 ”最 少 同步 副本 


在 主题 级 别 和 broker 级 别 上 ， 这 个 参数 都 叫 min.insync.replicas 。 


我 们 知道 ， 尽 管 为 一 个 主题 配置 了 3 个 副本 ， 还 是 会 出 现 只 有 一 个 同步 副本 的 情 


下 


况 。 如 有 果 这 个 同步 副本 变 为 不 可 用 ， 我 们 必须 在 可 用 性 和 一 a 
一 一 这 是 一 个 两 难 的 选择 。 根 据 Kafka 对 可 靠 性 保证 的 定义 ， 消 息 只 有 在 被 写 
到 所 有 同步 副本 之 后 才 被 认为 是 已 提交 的 。 但 如 果 这 里 的 “所 有 副本 ?4 包含 一 个 


同步 副本 ， 那 么 在 这 个 副本 变 为 不 可 用 时 ， 数 据 就 会 丢失 。 


如 采 要 确保 已 提交 的 数据 被 写 入 不 止 一 个 副本 ， 就 需要 把 最 少 同步 副本 数量 设置 


为 大 一 点 的 值 。 对 于 一 个 包含 3 个 副本 的 主题 ， 如 果 min.insync.replicas 


被 设 为 2， 那 么 至 少 要 存在 两 个 同步 副本 才能 向 分 区 写 入 数据 。 


如 采 3 个 副本 都 是 同步 的 ， 或 者 其 中 一 个 副本 变 为 不 可 用 ， 都 不 会 有 什么 问题 。 


不 过 ， 如 果 有 两 个 副本 变 为 不 可 用 ， 那 么 broker 就 会 停止 接受 生产 者 的 请 求 。 尝 
试 发 送 数据 的 生产 者 会 收 到 NotEnoughReplicasException 异常 。 消费 者 仍 


然 可 以 继续 读 取 已 有 的 数据 。 实 际 上 ， 如 有 果 使 用 这 样 的 配置 ， 


那么 当 只 剩 下 一 个 


同步 副本 时 ， 它 就 变 成 只 读 了 ， 这 是 为 了 避免 在 发 生 不 完全 选举 时 数据 的 写 入 和 
读 取出 现 非 预期 的 行为 。 为 了 从 只 读 状态 中 恢复 ， 必 须 让 两 个 不 可 用 分 区 中 的 一 


个 重新 变 为 可 用 的 (比如 重启 broker) ， 并 等 待 它 变 为 同步 的 。 


6.4 ”在 可 靠 的 系统 里 使 用 生产 者 


即使 我 们 尽 可 外 EB 把 broker 配置 得 很 可 靠 ， 但 如 果 没 有 对 生产 着 进行 可 靠 性 万 面 的 
配置 ， 整 个 系统 仍然 有 可 能 出 现 突 发 性 的 数据 丢失 。 


请 看 以 下 两 个 例子 。 


。 为 broker 配置 了 3 个 副本 ， 并 且 禁 用 了 不 完全 首领 选举 ， 这 样 应 该 可 以 保证 
万 无 一 失 。 我 们 把 生产 者 发 送 消息 的 acks 设 为 1 (只 要 首领 接收 到 消息 就 
可 以 认为 消息 写 入 成 功 ) 。 生 产 者 发 送 一 个 消息 给 首领 ， 首 领 成 功 写 入 ,但 
es 文 个 消息 。 首 领 同 生产 者 发 送 了 一 个 响应 ， 告 诉 

肖 息 写 入 成 功 ”"， 然 后 它 朋 并 了 ， 而 此 时 消息 还 没有 被 其 他 副本 复制 过 

另外 两 个 副本 此 时 仍然 被 认为 是 同步 的 ( 毕 EE 竞 判定 一 个 副本 不 同步 需要 

一 小 段 时 间 ) ， 而 且 其 中 的 一 个 副本 成 了 新 的 首领 >。 因为 消息 还 没有 被 写 入 
这 个 副本 ， 所 以 就 丢失 了 ， 但 发 送 消息 的 客户 端 却 认为 消息 已 成 功 写 入 。 因 

为 消费 者 看 不 到 丢失 的 消息 ， 所 以 此 时 的 系统 仍然 是 一 致 的 〈 因 为 副本 没有 

人 但 从 生产 者 角度 来 看 ， 它 丢失 了 
个 消息 

为 broker 配置 了 3 个 副本 ， 并 且 禁 用 了 不 完全 首领 选举 。 我 们 接受 了 之 前 的 

教训 ， 把 生产 者 的 acks 设 为 alL。 假 设 现在 往 Kafka 发 送 消 息 ， 分 区 的 首 

领 刚 好 月 瀑 ， 新 的 首领 正在 选举 当中 ，Kafka 会 向 生产 着 汉 回 "首领 不 可 

用 ”的 响应 。 在 这 个 时 候 ， 如 果 生 产 者 没 能 正确 处 理 这 个 错误 ， 也 没有 重 试 

发 送 消息 直到 发 送 成 功 ， 那 么 消 忆 世 有 可 能 于 天 这 算 不 上 是 broker 的 可 靠 

性 问题 ， 因 为 broker 并 没有 收 到 这 个 消息 。 这 也 不 是 一 任性 问题 ， 因 为 消费 

3 ,问题 在 于 如 果 生 产 者 没 和 Eb 正确 人 处理 这 些 错 误 ， 弄 于 

消息 的 是 它们 自 


4 我 们 该 如 何 避 免 这 些 悲 剧 性 的 后 果 呢 ? 从 上 面 两 个 例子 可 以 看 出 ， 每 个 使 
Kafka 


的 开发 人 员 都 要 注意 两 件 事情 。 


。 根据 可 靠 性 需求 配置 恰当 的 acks 值 。 
。 在 参数 配置 和 代码 里 正确 处 理 错误 。 


第 3 章 已 经 深入 讨论 了 生产 者 的 几 种 模式 ， 现 在 回顾 几 个 要 点 。 
6.4.1 “发送 确认 
生产 者 可 以 选择 以 下 3 种 不 同 的 确认 模式 。 
。 acks=0 意味 着 如 果 生 产 者 能 够 通过 网 络 把 消息 发 送出 去 ， 那 么 就 认为 消息 
已 成 功 写 入 Kafka。 在 这 种 情况 下 还 是 有 可 能 发 生 错 误 ， 比 如 发 送 的 对 象 无 
法 被 序列 化 或 者 网 卡 发 生 故 障 ， 但 如 果 是 分 区 离线 或 整个 集群 长 时 间 不 可 


用 ， 那 就 不 会 收 到 任何 错误 。 即 使 是 在 发 生 完全 首领 选举 的 情况 下 ， 这 种 模 
式 仍然 会 丢失 消息 ， 因 为 在 新 首领 选举 过 程 中 它 并 不 知道 首领 已 经 不 可 用 


薄 


> 


耳 


耳 


四 


。 在 acks=0 模式 下 的 运行 速度 是 非常 快 的 〈 这 文中 是 为 什么 很 多 基准 测试 
部 是 基 ny 你 可 以 得 到 | 芝 人 的 吞吐 量 和 带 宽 利 用 率 ， 不 过 如 果 选 
择 了 这 种 模式 ， 会 丢失 一 些 消息 
acks=1 意味 着 首 丰收 到 消息 并 把 它 写 入 到 分 区 数据 文件 (不 一 定 同步 到 
0 时 会 返回 确认 或 错误 响应 。 在 这 个 模式 下 ， 如 果 发 生 正 常 的 首领 选 

， 生 产 者 会 在 选举 时 收 到 一 个 LeaderNotAvailableException 异 

如 果 生 产 者 能 恰当 地 处 理 这 个 错误 (参考 6.4.2 节 ) ， 它 会 重 试 发 送 消 
中 最 终 消 息 那里 ° 不 过 在 这 个 模式 下 仍然 有 可 能 丢失 
2 比如 消息 已 经 成 功 写 入 首领 ， 但 在 消息 被 复制 到 跟随 者 副本 之 前 首领 
生 裔 溃 。 
acks=all 意味 着 首领 在 返回 确认 或 错误 响应 之 前 ， 会 等 待 所 有 同步 副本 都 
收 到 消息 。 如 果 和 min.insync.replicas 参数 结合 起 来 就 可 以 决定 在 
返回 确认 前 至 少 有 多 少 个 副本 能 够 收 到 消息 。 这 是 最 保险 多 js 
会 一 直 重 试 直到 消息 被 成 功 提 交 。 不 过 这 也 是 最 慢 的 做 法 ， 生产 者 在 线 纪 走 发 
送 其 他 消息 之 前 需要 等 等 所 有 副本 都 收 到 当前 的 消息 。 可 以 通过 使 用 异步 模 
式 和 更 大 的 批 次 来 加 快速 度 ， 但 这 样 做 通常 会 降低 吞吐 量 。 


6.4.2 ”配置 生产 者 的 重 试 参 数 


生产 者 需要 处 理 的 错误 包括 两 部 分 : 一 部 分 是 生产 者 可 以 目 动 处理 的 错误 ， 还 有 
一 部 分 是 需要 开发 者 手动 处 理 的 错误 。 


如 果 broker 返回 的 错误 可 以 通过 重 试 来 解决 ， 那 么 生产 者 会 自动 处 理 这 些 错 误 。 
生产 者 向 broker 发 送 消息 时 ，broker 可 以 返回 一 个 成 功 啊 应 码 或 者 一 个 错误 响应 
码 。 错 误 啊 应 码 可 以 分 为 两 种 ， 一 种 是 在 重 试 之 后 可 以 解决 的 ， 还 有 一 种 是 无 法 
通过 重 试 解决 的 。 例 如 ， 如 果 broker 返回 的 是 LEADER_NOT_AVAILABLE 错 

误 ， 生 产 者 可 以 党 试 重新 发 送 消 息 。 也 许 在 这 个 时 候 一 个 新 的 首领 被 选举 出 来 

Ts 那么 这 次 发 送 就 会 成 功 。 也 就 是 说 ，LEADER_NOT_AVAILABLE 是 一 个 可 重 
斌 错误 。 男 一 方面 ， 如 果 broker 返回 的 是 INVALID_CONFIG 错误 ， 即 使 通过 重 
试 也 无 法 改变 配置 选项 ， 所 以 这 样 的 重 试 是 没有 意义 的 。 这 种 错误 是 不 可 重 试 错 


误 。 


本 如 果 你 的 目标 是 不 丢失 任何 消息 ， 那 么 最 好 让 生产 者 在 遇 到 可 重 试 

错误 时 能 够 保持 重 试 。 为 什么 要 这 样 ? 因为 像 首领 选举 或 网 络 连 接 这 类 问题 都 可 
以 在 儿 秒 钟 之 内 得 到 解决 如 果 让 生产 者 保持 重 试 ， 你 就 不 需要 额外 去 处 理 这 些 
问题 了 。 经 常会 有 人 问 : “为 生产 者 配置 多 少 重 试 次 数 比较 好 ? ”这 个 要 看 你 在 生 
产 者 放弃 重 试 并 抛 出 异常 之 后 想 做 些 什么 。 如 果 你 想 抓 住 异常 并 再 多 重 试 几 次 ， 
那么 就 可 以 把 重 试 次 数 设置 得 多 一 点 ， 让 生产 者 继续 重 试 ， 如 果 你 想 直 接 丢 弃 消 
息 ， 多 次 重 试 造成 的 延迟 已 肥 失 去 发 送 消息 的 意义 ; 如 果 你 想 把 消息 保存 到 某 个 
地 方 然 后 回 过 头 来 再 继续 处 理 ， 那 就 可 以 停止 重 试 。 Kafka 的 跨 数据 中 心 复 制 工 
具 (MirrorMaker， 我 们 将 在 第 8 章 介 绍 ) 默认 会 进行 无 限制 的 重 试 (例如 
retries=MAX_INT ) 。 作 为 个 具有 高 可 靠 性 的 复制 工具 已 决 不 会 丢失 消 
自 。 


/DA 


要 注意 ， 重 试 发 送 一 个 已 经 失败 的 消息 会 带 来 一 些 风险 ， 


如 有 果 两 个 消息 都 写 入 成 


功 ， ee 息 重 复 。 例 如 ， 生产 者 因为 网 络 问题 没有 收 到 broker 的 确认 ， 但 实 


际 上 消息 经 写 入 成 功 ， 生 产 者 会 认为 网 络 出 现 了 临时 故障 ， 


就 重 试 发 送 该 消息 


大 为 它 不 知 这 簿 乱 已 经 写 入 成 * 在 这 种 情况 下 ， broker 会 收 到 两 个 相同 的 


肖 息 。 重 试 和 恰当 的 错误 处 理 可 以 保证 每 个 


一 < 


消息 0 


但 当前 的 


Kafka 版 本 (0.10.0) 无 法 保证 每 个 消息 :只 被 保存 一 。 现 实 的 很 多 应 用 程序 


在 消息 里 加 入 唯一 标识 符 ， 用 于 检测 重复 消 


| 


进行 清理 。 还 要 一 些 应 用 程序 可 以 做 到 消息 
复 消息 ， 也 不 会 对 处 理 结果 的 正确 性 造成 负 


的 “ 需 等 "， 也 就 是 说 ， 0 


面 影响 。 例 如 ， 消 妃 * 这 


个 账号 里 有 


110 美元 ? 束 是 贿 等 的 ， 天 为 即使 多 次 发 送 这 样 的 消息 ， 产 生 的 结果 都 是 一 样 的 。 
不 过 消息 “ 往 这 个 账号 里 增加 10 美元 ”就 不 是 知 等 的 。 


6.4.3 ”额外 的 错误 处 理 


使 用 生产 者 内 萤 的 重 试 机 制 可 以 在 不 阁 成 浓 且 丢失 的 情 帝 下 轻松 地 处 理 大 部 分 错 


误 ， 不 过 对 于 开发 人 员 来 说 ， 仍 然 需 要 处 理 其 他 类 型 的 错误 ， 包 括 : 


。 不 可 重 试 的 broker 错误 ， 例 如 消息 大 小 错误 、 认 证 错误 等 ; 
。 在 消息 发 送 之 前 发 生 的 错误 ， 例 如 序列 化 错误 ; 
电 占 用 的 内 存 达 到 上 限时 发 生 的 错 


”在 生产 兰 达 到 重 试 次 数 上 限时 或 者 在 消 ， 


误 。 


我 们 在 第 3 章 讨 论 了 如 何 为 同步 发 送 消息 和 异步 发 送 消 息 编 写 


a 的 代码 逻辑 与 具体 的 应 用 程序 


其 目标 有 关 。 丢 弃 “ 不 合法 


错误 处 理 器 。 这 些 


的 消 乱 ”? 


把 错误 记录 下 来 ? 把 这 些 消息 保存 在 本 地 磁盘 上 ? 回调 另 一 个 应 用 程序 ?” 具体 使 


用 哪 一 种 逻辑 要 根据 具体 的 架构 来 决定 。 


只 要 记 住 ， 如 果 错 误 处 理 只 


发 送 消 息 ， 那 么 最 好 还 是 使 用 生产 者 内 置 的 重 试 机 制 。 


6.5 ”在 可 靠 的 系统 里 使 用 消费 者 


前 提 下 生产 数据 ， 现 在 来 看 看 如 何在 


我 们 已 经 学 习 了 如 何在 保证 Kafka 可 靠 性 的 
同样 的 前 提 下 读 取 数 据 。 


在 本 章 的 开始 部 分 可 以 看 到 ， 只 有 那些 被 提 


4 是 为 了 重 试 


交 到 Kafka 的 数据 ， 也 束 是 那些 已 经 


被 写 入 所 有 同步 副本 的 数据 ， 对 消费 者 是 可 用 的 ， 这 意味 者 少 党 着 得 到 和 沸 息 已 


经 具备 了 一 致 性 。 消 费 者 唯一 要 做 的 是 跟踪 哪些 消息 是 已 经 读 取 过 的 ， 哪 些 是 还 


没有 读 取 过 的 。 这 是 在 读 取消 息 时 不 丢失 消息 的 关键 。 


区 读 取 数据 时 ， 消 费 者 会 获取 一 批 事 件 ， 检 查 这 批 事件 里 最 大 的 偏 移 量 ， 


然后 从 这 个 偏 移 量 开始 读 取 男 外 一 批 事件 。 
序 获取 新 数据 ， 不 会 错过 任何 事件 。 


1[ 


这 样 可 以 保证 消费 者 总 能 以 正确 的 顺 


J 男 一 个 消费 者 需要 知道 从 什么 地 方 开始 继续 处 理 ， 它 需要 
知道 前 一 个 消费 者 在 退出 前 处 理 的 最 后 一 个 偏 移 量 是 多 少 。 所 请 的 “ 男 一 个 ”消费 
者 ， 也 可 能 就 是 它 自己 ,重启 之 后 重新 回来 工作 。 这 也 就 是 为 什么 消费 者 要 “ 提 

交 ” 它 们 的 偏 移 量 。 它 们 把 当前 读 取 的 偏 移 量 保存 起 来 ， 在 退出 之 后 ， 同 一 个 群 
组 里 的 其 他 消费 者 束 可 以 接手 它们 的 工作 。 如 采 消 费 者 提交 了 偏 移 量 却 未 能 处 理 
局 ， 那么 就 有 可 能 造成 消息 丢失 ， 这 也 是 消费 者 丢失 消息 的 主要 原因 。 在 这 
种 情况 下 ， 如 采 其 他 消费 者 接手 了 工作 ， 那些 没有 被 处 理 完 的 消息 就 会 被 忽略 ， 
0 这 束 古 为 什么 我 们 非常 重视 偏 移 量 提交 的 时 间 点 和 提交 的 方 
ss 


&H 
I 


和 已 提交 消息 与 已 提交 偏 移 量 


要 注意 ， 此 处 的 已 提交 消息 与 之 前 讨论 过 的 已 提交 消息 是 不 一 样 的 ， 它 是 指 
已 经 被 写 入 所 有 同步 副本 并 且 对 消费 者 可 见 的 消息 ， 而 已 提交 偏 移 量 是 指 
费 者 发 送 给 Kafka 的 偏 移 量 ， 用 于 确认 它 已 经 收 到 并 处 理 好 的 消息 位 置 。 


我 们 在 第 4 剖 已 4 至 详细 介绍 了 消费 者 API 的 使 用 ， 还 介绍 了 多 种 提交 偏 移 量 的 方 
下 面 会 介绍 一 些 关键 的 注意 事项 ee 
第 4 章 。 


6.5.1 消费 者 的 可 靠 性 配置 
为 了 保证 消费 者 行为 的 可 靠 性 ， 需 要 注意 以 下 4 个 非常 重要 的 配置 参数 。 


第 1 个 是 group.id。 这 个 参数 在 第 4 章 已 经 详细 解释 过 了 ， 如 果 两 个 消费 者 具 
有 相同 的 group.id ， 并 且 订 阅 了 同一 个 主题 ， 那 么 每 个 消费 者 会 分 到 主题 分 区 
的 一 个 子 集 ， 也 就 是 说 它们 只 能 读 到 所 有 消息 的 一 个 子 集 (不 过 群 组 会 读 取 主题 
所 有 的 消息 j 。 如 果 你 希望 消费 者 可 以 看 到 主题 的 所 有 消息 ， 那 么 需要 为 它们 设 
置 唯一 的 group ,id 。 


三 


第 2 个 是 auto.offset.reset 。 这 个 参数 指定 了 在 没有 偏 移 量 可 提交 时 ( 比 
如 消费 者 第 1 次 启动 时 ) 或 者 请 求 的 偏 移 量 在 broker 上 不 存在 时 (第 4 章 已 经 解 
释 过 这 种 场景 ) ， 消 费 者 会 做 些 什么 。 这 个 参数 有 两 种 配置 。 一 种 是 earliest 

如 果 选 择 了 这 种 配置 ， 消 费 者 会 从 分 区 的 开始 位 置 读 取 数据 ， 不 管 偏 移 量 是 否 
有 效 ， 这 样 会 导致 消费 首 读 取 大 量 的 重复 数据 ， 但 可 以 保证 最 少 的 数据 丢失 。 一 
种 是 latest ， 如 果 选 择 了 这 种 配置 ， 消 费 者 会 从 分 区 的 末尾 开始 读 取 数 据 ， 这 
样 可 以 减少 重复 处 理 消息 ， 但 很 有 可 能 会 错过 些 消息 。 


第 3 个 是 enable.auto.commit 。 这 是 一 个 非常 重要 的 配置 参数 ， 你 可 以 让 消 
费 者 基于 任务 调度 自动 提交 偏 移 量 ， 也 可 以 在 代码 里 手动 提交 仿 移 量 。 自动 提交 
的 一 个 最 大 好 处 是 ， 在 实现 消费 者 逻辑 时 可 以 少 考虑 一 些 问 题 。 如 果 你 在 消费 者 
轮 询 操作 里 处 理 所 有 的 数据 ， 那 么 自动 提交 可 以 保证 只 提交 已 经 处 理 过 的 偏 移 量 


> 府 
和 


《如果 忘 了 消 


是 中 sr 


点 是 ， 
局 ) ， 
二 


费 者 轮 询 是 什么 ， 
无 法 控制 重复 处 理 消息 


(比如 消费 者 


而 且 如 果 把 消息 交 给 


第 41 
果 洗 择 了 
是 区 


自动 提交 偏 移 量 ， 
般 来 说 ， 频 繁 提交 会 增加 额外 的 开销 ， 但 


提交 一 次 。 
概率 


6.5.2 ” 显 式 提交 偏 移 量 


如 果 选 择 了 


更 多 地 控制 偏 移 量 提交 的 时 间 点 ， 那 么 就 要 仔细 想 想 该 如 何 提 交 偏 移 量 
对 为 把 消息 处 理 逻 辑 放 在 了 轮 询 之 外 。 


么 是 为 了 减少 


昌 动 提交 偏 移 量 ， 


入 还 没有 有 处 理 守 证 涡 提 交 介 移 


个 配置 参数 auto .commit .interval.ms 与 第 3 个 参数 有 直接 的 联系 。 如 
可 以 通过 该 参数 配置 提交 的 频 度 ， 默 认 值 是 每 5 秒 钟 
也 会 降低 重复 处 理 消息 的 


少 重 复 处 理 消息 ， 


3 


很 详细 的 介 


时 需要 注意 


请 回顾 一 下 第 4 章 的 内 容 ) 
在 
另外 一 个 后 台 线程 去 处 理 ， 


有 丘 . 
EE 


就 不 需要 关心 


显 式 提交 的 问题 。 


三 | 
征 


2 


里 我 们 个 再 重复 说 明 这 个 机 制 以 及 如 何 使 用 相关 的 APT 
。 相反， 我 们 会 着 重 说 明 几 个 在 开发 具有 可 靠 性 的 消费 者 应 用 程序 
六 的 事项 我 们 先 从 简单 的 开始 ， 


01. 总 是 在 处 理 完事 件 后 再 提交 偏 移 量 


如 果 所 有 的 处 理 都 是 在 轮 询 里 完成 ， 
为 了 实现 聚合 操作 ) 


提交 。 


， 那 么 可 以 使 用 


因为 第 4 章 里 


。 自动 提交 的 主要 缺 
自动 提交 偏 移 量 之 前 停止 处 理 消 
自动 提交 机 制 可 能 会 在 消 


不 过 如 果 和 希望 能 够 
了 一 一 要 


再 逐步 深入 。 


自动 提交 ， 


02. 提交 频 度 是 性 能 和 重复 消息 数量 之 间 的 权衡 
即使 是 在 最 简单 的 场景 


轮 询 之 间 维 护 状 态 ， 你 仍然 可 以 在 一 个 循 环 电 


每 处 理 完 一 个 事件 之 后 ) ， 
acks=al1 配置 有 点 类 似 ) 


出 的 权衡 。 
03. 确保 对 提交 的 偏 移 量 心 里 有 数 


在 轮 询 过 程 


里 ， 比 如 所 有 的 处 理 都 在 轮 询 里 


或 者 在 轮 


完成 ， 


多 次 提交 偏 移 量 


已 经 有 


并 且 不 需要 在 轮 询 之 间 维 护 状态 (比如 
询 结 束 时 进行 手动 


并 且 不 需要 在 


或 者 多 个 循环 里 
， 这 完全 取决 了 


' 提 交 偏 移 : 


量 有 


个 不 好 的 地 方 ， 


只 提交 


次 (与 生产 者 的 
= 你 在 性 能 和 重复 处 理 消息 之 间作 


取 到 的 最 新 偏 移 量 ， 


0 


给 出 了 示例 。 


04. 再 均衡 


而 不 是 处 理 过 的 最 新 侦 移 量 。 


是 非常 关键 的 一 一 否则 会 


就 是 提交 的 偏 移 量 有 可 能 是 庄 
要 记 住 ， 在 处 理 完 消 息 


(甚至 可 以 在 


导致 消费 者 错过 消息 。 我 们 已 经 在 


在 设计 应 用 程序 时 要 注意 处 理 消 费 者 的 再 均衡 问题 。 我 们 在 第 4 章 举 了 几 个 


例子 ， 一 般 要 在 分 区 被 撤销 之 前 提交 偏 移 量 ， 并 在 分 


配 到 新 分 区 时 清理 之 前 


而 不 是 对 消息 的 “确认 >”， 
导致 #31 以 内 的 偏 移 量 都 


处 理 成 功 的 偏 移 量 ， 然 后 
个 轮 询 束 不 会 把 它们 覆 盏 


或 者 重 试 次 数 达到 上 限 
后 调用 resume( ) 方法 让 


系统 里 的 dead-letter- 


的 状态 。 
05. 消费 者 可 能 需要 重 试 

有 时 候 ， 在 进行 轮 询 之 后 ， 有 些 消息 不 会 被 完全 处 理 ， 你 想 稍 后 再 来 处 理 。 

例如 ， 假 设 要 把 Kafka 的 数据 写 到 数据 库 里 ， 不 过 那个 时 候 数 据 库 不 可 用 ， 
-是 你 想 稍 后 重 试 。 要 注意 ， 你 提交 的 是 偏 移 量 ， 

这 个 与 传统 的 发 布 和 订阅 消息 系统 不 太一 样 。 如 果 记 录 #30 处 理 失 败 ， 但 记 
录 #31 处 理 成 功 ， 那 么 你 不 应 该 提交 #31， 否 则 会 

说 提交， 包括 #30 在 内 ， 而 这 可 能 不 是 你 想 看 到 的 结果 。 不 过 可 以 采用 以 下 
两 种 模式 来 解决 这 个 问题 。 

第 一 种 模式 ， 在 遇 到 可 重 试 错误 时 ， 提 交 最 后 一 个 

把 还 没有 处 理 好 的 消息 保存 到 缓冲 区 里 (这 样 下 一 

掉 ) ， 调 用 消费 者 的 pause( ) 方法 来 确保 其 他 的 轮 询 不 会 返回 数据 〈 不 需 

要 担心 在 重 试 时 缓冲 区 溢出 ) ， 在 保持 轮 询 的 同时 尝试 重 新 处 理 (关于 为 什 
么 不 能 停止 轮 询 ， 请 参考 第 4 章 。 如 果 重 试 成 功 ， 

并 决定 放弃 ， 那 么 把 错误 记录 下 来 并 丢弃 消息 ， 然 

消费 者 继续 从 轮 询 里 获取 新 数据 。 

二 种 模式 ， 在 过 到 可 重 斌 错误 时 ， 把 错误 写 入 一 个 独立 的 主题 ， 然 后 继 
= 。 一 个 独立 的 消费 者 群 组 负责 从 该 主题 上 读 取 错误 消息 ， 并 进行 重 试 ， 或 
者 使 用 其 中 的 一 个 消费 者 同时 从 该 主题 上 读 取 错误 消息 并 进行 重 试 ， 不 过 在 
重 试 时 需要 暂停 该 主题 。 这 种 模式 有 点 像 其 他 消息 
queue ° 

06. 消费 者 可 能 需要 维护 状态 


有 时候 你 希望 在 多 个 轮 询 之 间 维 护 状态 例如， 你 想 计算 消息 的 移动 平均 
数 ， 项 望 在 首次 轮 询 之 后 计算 平均 数 ， 然 后 在 后 续 的 轮 询 中 更 新 这 个 结 采 。 
如 果 进 程 重启 ， 你 不 仅 需 要 从 上 一 个 偏 移 量 开 始 处 


理 数据 ， 还 要 恢复 移动 平 


均 数 。 有 一 种 办 法 是 在 提交 侦 移 量 的 同时 把 最 近 讨 
果 ” 主 题 上 。 消 费 者 线程 在 重新 局 动 之 后 ， 它 就 可 以 拿 到 最 近 的 平均 数 并 接 
着 计算 。 不 过 这 并 不 能 完全 地 解决 问题 ， 因 为 Kafka 并 没有 提供 事务 支持 。 


二 < 


消费 者 有 可 能 在 写 入 平均 数 之 后 来 不 及 提交 偏 移 量 


算 的 平均 数 写 到 一 个 “ 结 


一 样 。 这 是 一 个 很 复杂 的 问题 ， 你 不 应 该 尝试 自己 
试 一 下 KafkaStreams 这 个 类 库 ， 它 为 聚合 、 连 接 、 时 间 窗 和 其 他 复杂 的 分 析 


提供 了 高 级 的 DSL API。 


07. 长 时 间 处 理 


就 月 省 了 ， 或 者 反 过 来 也 
去 解决 这 个 问题 ， 建 议和 演 


有 时 候 处 理 数据 需要 很 长 时 间 : 你 可 能 会 从 发 生 阻塞 的 外 部 系统 获取 信息 
或 者 把 数据 写 到 外 部 系统 ， 或 者 进行 一 个 非常 复杂 的 计算 。 要 记 住 ， 暂 停 轮 
询 的 时 间 不 能 超过 几 秒 钟 。 即 使 不 想 获取 更 多 的 数据 ， 也 要 保持 轮 询 ， 这 样 


客户 端 才能 往 broker 发 送 心跳 。 在 这 种 情况 下 ， 一 种 常见 的 做 法 是 使 用 一 个 
线程 池 来 处 理 数据 ， 因 为 使 用 多 个 线程 可 以 进行 并 行 处 理 ， 从 而 加 快 处 理 速 


省 


费 者 ， 然 后 保持 轮 


度 。 在 把 数据 移交 给 线程 池 去 处 理 之 后 ， 你 就 可 以 暂停 消 
询 ， 但 不 获取 新 数据 ， 


na 


送 ， 就 不 会 发 生 再 均衡 。 
08. 仅 一 次 传递 


加 些 应 用 程序 不 仅仅 需要 “至 少 一 次 ” (at-least-once) 语义 (意味 着 没有 数据 


[到 工作 线程 处 理 完成 。 在 工作 线程 处 理 完成 之 后 ， 
可 以 让 消费 者 继续 获取 新 数据 。 因 为 消费 者 一 直 保持 轮 询 ， 


心跳 会 正常 发 


失 ) ， 还 需要 “ 仅 一 次 ”(exactly-once) 语义 。 尽 管 Kafka 现在 还 不 能 完全 
支持 仅 一 次 语义 ， 消 费 者 还 是 有 一 些 办 法 可 以 保证 Kafka 


据 ) 


里 的 每 个 消息 只 被 


写 到 外 部 系统 一 次 (但 不 会 处 理 向 Kafka 写 入 数据 时 可 能 出 现 的 重复 数 


实现 仅 一 次 处 理 最 闸 申 且 最 常用 的 办 法 是 把 结果 写 到 一 个 支持 唯一 链 的 系统 


里 ， 比 如 键 值 存储 引擎 、 关 系 型 数据 库 、ElasticSearch 或 其 他 数据 存储 引 


擎 。 在 这 种 情况 下 ， 要 么 消息 本 身 包含 2 键 (通常 都 是 这 样 ) ， 要 么 
使 用 主题 、 分 区 和 偏 移 量 的 组 合 来 创建 唯一 链 - 它们 的 组 合 可 以 唯一 标识 
一 个 Kafka 记录 。 如 果 你 把 消息 和 一 个 唯一 链 写 入 系统 ， 然 后 碰巧 又 读 到 一 
个 相同 的 消息 ， 只 要 把 原 和 匀 刍 信 缆 关 掉 肥 。 数据 存储 引擎 会 覆盖 已 经 存 


在 的 键 值 对 ， 就 像 没 有 出 现 过 重复 数据 一 样 。 这 个 模式 被 叫 作 需 等 性 写 入 ， 


它 是 一 种 很 常见 也 很 有 用 的 模式 。 


如 采写 入 消息 的 系统 支持 事务 ， 那 么 就 可 以 使 用 另 一 种 方法 。 最 简单 的 是 使 
用 关系 型 数据 库 ， 不 过 HDFS 里 有 一 宇 俱 更 产 定义 过 外 原 了 了 操作 也 至 第 用 来 


达到 相同 的 目的 。 我 们 把 消息 和 偏 移 量 放 在 同一 个 事务 


里 ， 这 样 它们 惑 能 保 


持 同步 。 在 消费 者 启动 时 ， 它 会 获取 最 近 处 理 过 的 消息 偏 移 量 ， 然 后 调用 
seek( ) 方法 从 该 偏 移 量 位 置 继 续 读 取 数据 。 我 们 在 第 4 章 已 经 介绍 了 一 个 


相关 的 例子 。 
6.6 ”验证 系统 可 靠 性 


你 经 过 了 所 有 的 流程 ， 从 确认 可 靠 性 需求 ， 到 配置 broker， 


再 到 配置 客户 端 ， 并 


小 心 前 慎 地 使 用 API.……. 现 在 可 以 把 所 有 东西 都 放 到 生产 环境 
枕 无 忧 ， 自 信 不 会 丢失 任何 消息 了 ， 对 吗 ? 


里 去 运行 ， 然 后 高 


你 当然 可 以 这 么 做 ， Re 些 验证 。 我 们 建议 做 3 个 


末 轩 有 每 “下 部 要 做 此 什 么 以 及 该 和 公 做 


配置 验证 、 应 用 程序 验证 以 及 生产 环境 的 应 用 程序 监控 。 让 我 们 


6.6.1 配置 验证 


从 应 用 程序 里 


做 ， 有 以 下 两 方面 的 原因 。 


e 验 证 


配置 是 


人 否 满足 你 的 需求 。 


可 以 很 容易 对 broker 和 客户 端 配 置 进行 验证 ， 我 们 之 所 以 建议 这 人 么 


。 帮助 你 理解 系统 的 行为 ， 了 解 系统 的 真正 行为 是 什么 ， 了 解 你 对 Kafka 基本 
准则 的 理解 
到 各 种 场景 


是 如 何 运 用 于 
Kafka 提供 了 两 个 重要 的 工具 用 了 


里 的 。 


是 否 存 在 偏差 ， 然 后 加 以 改进 ， 


实际 当 


F 验 证 配置 : 


org.apache.kafka.tools 包 晤 


同时 了 解 这 些 准 则 是 如 何 被 应 用 
ee 所 以 要 确 你 你 能 够 理解 这 些 理论 
的 。 


里 的 


Verifiable Producer 和 Verifiableconsumer 这 两 个 类 。 我 们 可 以 从 命 


令 行 运行 这 两 个 类 ， 或 者 把 它们 骸 入 到 


其 思想 是 ，VerifiableProducer 生成 一 


自动 化 测试 框架 里 。 


系列 消息 ， 这 些 消息 包含 从 1 到 你 指 


定 的 某 个 数字 。 你 可 以 使 用 与 生产 者 相同 的 方式 来 配置 VerifiableProducer 


， 比 如 配置 相同 的 acks 、 


VerifiableProducer 时 ， 
出 来 。VerifiableConsumer 执行 的 


重 试 次 数 和 ; 
它 会 把 每 个 


入 消息 


个 检查 


站 


肖 息 生成 速度 。 在 运行 
是 否 成 功 发 送 到 broker 的 结果 打印 
取 事 件 (由 


VerifiableProducer 生成 ) 并 按 顺序 打印 出 这 些 事 件 。 它 也 会 打印 出 已 提交 


的 偏 移 量 


量 和 再 均衡 的 相关 信息 


你 可 以 考虑 运行 以 下 一 些 测试 。 


.首领 


选举 : 


如 有 果 我 停 掉 首领 会 发 生 什么 事情 ? 生产 者 和 消费 者 重新 ' 


状态 需要 多 长 时 间 ? 


。 控 制 器 选举 
。 依次 重 
。 不 完全 

的 ) ， 然 


FI 
日 : 


首领 


可 以 依次 重启 


征 可 


吗 ? 


重启 控制 器 后 系 


然后 你 从 中 


VerifiableConsumer 并 开始 测试 这 个 场景 ， 
。 如 果 期 望 在 一 


首领 


么 只 要 确保 生产 者 生成 的 数据 个 数 与 消费 者 读 取 的 数据 个 


选择 


个 场景 ， 


统 需 


要 多 少时 间 来 恢复 状态 ? 
安 broker 而 不 丢失 任何 数据 吗 ? 


次 复 正常 


启动 VerifiableProducer 和 


例如 ， 停 掉 正 在 接收 消息 的 分 区 


选举 测试 : 如 果 依 次 停止 所 有 副本 〈 确 保 每 个 副本 都 变 为 不 同步 
后 启动 一 个 不 同步 的 broker 会 发 生 什 么 ? 要 怎样 恢复 正常 ? 这 样 做 


妆 受 的 


个 短暂 的 暂停 之 后 状态 恢复 正常 并 且 没 有 任何 数据 丢失 ， 那 


Kafka 的 代码 库 里 包含 了 大 量 
Verifiable Producer 和 VerifiableConsumer 来 确保 迭代 的 版 本 能 够 正 


常 工作 。 


6.6.2 


测试 用 例 。 


应 用 程序 验证 


。 它们 大 部 分 都 遵循 


数 是 匹配 的 就 可 以 了 。 
相同 的 准 册 


在 确定 broker 和 客户 端的 配置 可 以 满足 你 的 需求 之 后 ， 接 下 来 要 验证 应 用 程序 是 
否 能 够 保证 达到 你 的 期 望 。 应 用 程序 的 验证 包括 检查 目 定义 的 错误 处 理 代码 、 偏 
移 量 提 交 的 方式 、 再 均衡 监听 器 以 及 其 他 使 用 了 Kafka 客户 端的 地 方 。 


因为 应 用 程序 是 你 自己 的 ， 关 于 如 何 测试 应 用 程序 的 逻辑 ， 我 们 无 法 提供 更 多 的 
指导 ， 但 愿 你 的 开发 流程 里 已 经 包含 了 集成 测试 。 不 管 如 何 验证 你 的 应 用 程序 ， 
我 们 都 建议 基于 如 下 的 故障 条 件 做 一 些 测试 : 


。 客户 端 从 服务 器 断 开 连接 〈 系 统管 理 员 可 以 帮忙 模拟 网 络 故障 ) ， 
e 首领 选举 ; 

。 依次 重启 broker; 

。 依次 重启 消费 者 ; 

。 依次 重启 生产 者 。 


你 对 每 一 个 测试 场景 都 会 有 期 望 的 行为 ， 也 就 是 在 开发 应 用 程序 时 所 期 望 看 到 的 
行为 ， 然 后 运行 测试 看 看 真实 的 结果 是 否 符合 预期 。 例 如 ， 在 测试 "依次 重启 消 
费 者 ”这 这 一 声 景 时 ， 你 期 望 看 到 “在 短暂 的 再 均衡 之 后 出 现 的 重复 消息 个 数 不 超 过 
1000 个 ”。 测试 结果 会 告诉 我 们 应 用 程序 提交 偏 移 量 的 方式 和 处 理 再 均衡 的 方式 
是 否 与 预期 的 一 样 。 


6.6.3 ”在 生产 环境 监控 可 靠 性 


测试 应 用 程序 是 很 重要 的 ， 不 过 它 无 法 代替 生产 环境 的 持续 监控 ， 这 些 监控 是 为 
了 确保 数据 按照 期 望 的 方式 流动 。 我 们 将 会 在 第 9 章 详 细 介 绍 如 何 监控 Kafka 集 
群 ， 不 过 除了 监控 集群 的 健康 状况 之 外 ， 监 扫 监控 客户 端 和 数据 流 也 是 很 重要 的 。 


首先 ，Kafka 的 Java 客户 端 包含 了 JMX 度量 指标 ， 这 些 指 标 可 以 用 于 监控 客户 
端的 状态 和 事件 。 对 于 生产 者 来 说 ， 最 重要 的 两 个 可 靠 性 指标 是 消息 的 error-rate 
和 retry-rate (聚合 过 的 ) 。 如 果 这 两 个 指标 上 升 ， 说 明 系 统 出 现 了 问题 。 除 此 以 
外 ， 还 要 监控 生产 者 日 志 一 一 发 送 消 息 的 错误 日 志 被 设 为 WARN 级 别 ， 可 以 

在 “Got error produce response with correlation id 5689 on topic-partition [topic-1,3], 
retrying (two attempts left). Error: ... ”中 找到 它们 。 如 果 你 看 到 消息 剩余 的 重 试 次 数 
为 0， 说 明生 产 者 已 经 没有 多 余 的 重 试 机 会 。 就 像 我 们 在 6.4 节 所 讨论 的 那样 ， 

你 也 许可 以 增加 重 斌 次数， 或 者 把 造成 这 个 错误 的 问题 移 解决 掉 。 


| 最 重要 的 指标 是 consumer-lag， 该 指标 表明 了 消费 者 的 处 理 速 
度 与 最 近 提 交 到 分 区 里 的 偏 移 量 之 间 还 有 多 少 差距 。 理 想 情 况 下 ， 该 指标 总 是 为 
0， 消 费 者 总 能 读 到 最 新 的 消息 。 不 过 在 实际 当 因为 p011( ) 方法 会 返回 很 
多 消息 ， 消费 者 在 获取 更 多 数据 之 前 需要 花 些 时 间 来 处 理 它们 ， 所 以 该 指标 会 
有 些 波动 。 关键 古 委 一 保 涓 f 费 者 最 终 会 赴 上 去 ， 而 不 是 越 落 越 远 。 因为 该 指标 会 
正常 波动 ， 所 以 在 告警 系统 里 配置 该 指标 有 一 定 难度 ” 。Burrow 是 LinkedIn 公司 
开发 的 一 个 consumer-lag 检测 工具 ， 它 可 以 让 这 件 事 情 变 得 容易 一 些 。 


监控 数据 流 是 为 了 确保 所 有 生成 的 数据 会 被 及 时 地 读 取 (你 的 需求 决定 了 “及 
时 ”的 具体 含义 ) 。 为 了 确保 数据 能 够 被 及 时 读 取 ， 你 需要 知道 数据 是 什么 时 候 
生成 的 。0.10.0 版 本 的 Kafka 在 消息 里 增加 了 时 间 戳 ， 表 明了 消息 的 生成 时 间 。 


如 有 果 你 使 用 的 是 更 早 版 本 的 客户 端 ， 我 们 建议 自己 在 消息 里 加 入 时 间 戳 、 应 用 程 


序 的 名 字 和 机 器 名 ， 这 样 有 助 于 将 来 诊断 问题 。 
为 了 确保 所 有 消 轧 能够 在 合理 的 时 间 内 被 读 取 ， 应 用 程序 需要 记录 生成 消 轧 的 数 


量 (一 般 用 每 秒 多 少 个 消息 来 表示 ) ， 而 消费 者 需要 记录 已 读 取 消息 的 数量 (也 


用 每 秒 多 少 个 消息 来 表示 ) 以 及 消息 生成 时 间 (生成 消息 的 时 间 ) 到 当前 时 间 


( 读 取 消息 的 时 间 ) 之 间 的 时 间 差 。 然 后 ， 你 需要 使 用 工具 来 比较 生产 者 和 消费 


者 记录 的 消息 


数量 〈 为 了 确保 没有 丢失 消息 ) ， 靖 保 这 两 者 之 问 的 ! 癌 莹 个 会 站 


出 我 们 人 允许 的 范围 。 为 了 做 到 更 好 的 监控 ， 我 们 可 以 增加 一 个 "监控 消费 者 ”， 


个 消费 者 订阅 一 个 特别 的 主题 ， 它 只 进行 消息 的 计数 操作 ， 并 把 数值 与 生成 的 消 


县 数量 进行 对 比 ， 这 样 我 们 束 可 以 在 没有 消费 者 的 情况 下 仍然 能 够 准确 地 监控 生 
产 者 。 这 种 端 到 端的 监控 系统 实现 起 来 很 耗费 时 间 ， 具 有 一 定 挑 成 性 。 据 我 们 所 


知 ， 目 前 还 没有 开源 的 实现 。Confluent 提供 了 一 个 商业 的 实现 版 本 ， 它 是 


Ll 


Confluent Control Center 的 一 部 分 。 


6.7 ”总结 


CN 一 器 


正如 我 们 在 本 章 开 头 所 说 的 ， 可 靠 性 并 不 只 是 Kafka 单方 面 的 事情 。 我 们 应 该 从 


整个 系统 层面 来 考虑 可 靠 性 问题 ， 包 括 应 用 程序 的 架构 、 生 产 者 和 消费 者 API 的 
使 用 方式 、 生 产 者 和 消费 者 的 配置 、 主题 的 配置 以 及 broker 的 配置 。 系统 的 可 靠 


性 需要 在 许多 方面 作出 权衡 ， 比 如 复杂 性 、 性 能 、 可 用 性 和 磁盘 空间 的 使 用 。 掌 


握 Kafka 的 各 种 配置 和 常用 模式 ， 对 使 用 场景 的 需求 做 到 | 心中 有 数 ， 你 就 可 以 在 


应 用 程序 和 Kafka 的 可 靠 性 程度 以 及 各 种 权衡 之 间作 出 更 好 的 选择 。 


第 7 章 构建 数据 管道 


在 使 用 Kafka 构建 数据 管道 时 ， 通 常 有 两 种 使 用 场景 : 第 一 种 ， 把 Kafka 作为 数 


据 管 道 的 两 个 端点 之 一 ， 例 如 ， i 里 的 数据 移动 到 S3 上 ， 或 者 把 


MongoDB 里 的 数据 移动 到 Kafka 里 ; 第 二 种 ， 把 Kafka 作为 数据 管道 两 个 端点 的 


I 间 媒介 ， 例 如 ， 为 了 把 Twitter 的 数据 移 动 到 ElasticSearch 上 ， 需 要 先 把 它们 移 
动 到 Kafka 里 


， 再 将 它们 从 Kafka 移动 到 ElasticSearch 上 。 


LinkedIn 和 其 他 一 些 大 公司 都 将 Kafka 用 在 上 述 两 种 场景 中 ， 后 来 ， 我 们 在 0.9 


版 本 的 Kafka 


里 增加 了 Kafka Connect (以 下 简称 Connect) 。 我 们 注意 到 ， 企 业 


在 将 Kafka 研 


与 数据 管道 进行 集成 时 总 会 碰 到 一 些 特定 的 问题 ， 所 以 决定 往 Kafka 


里 增加 一 些 API 来 帮助 他 们 解决 这 些 问题 ， 而 不 是 等 着 他 们 提出 这 些 问题 。 


Kafka 为 数据 管道 带 来 的 主要 价值 在 于 ， 它 可 以 作为 数据 管道 各 个 数据 段 之 间 的 
大 型 缓冲 区 ， 有 效 地 解 厅 管 道 数 据 的 生产 者 和 消费 者 。Kafka 的 解 耦 能 力 以 及 在 
安全 和 效率 方面 的 可 靠 性 ， 使 它 成 为 构建 数据 管道 的 最 佳 选择 。 


和 数据 集成 的 场景 


有 些 组 织 把 Kafka 有 成 是 数据 间 违 妆 个 端点 ， 他 们 会 想 我 怎么 才 朋 上 把 数 
据 从 Kafka 移 到 ElasticSearch 里 ”。 这 人 么 想 是 村 别 是 当 你 需要 
的 数据 在 到 达 ElasticSearch 之 前 还 停 加 在 Kafka 里 的 时 候 ， 其 实 我 们 也 是 这 
么 想 的 。 不 过 我 们 要 讨论 的 是 如 何在 更 大 的 场景 里 使 用 Kafka， 这 些 场景 至 
少 包 含 两 个 端点 (可 能 会 更 多 ) ， 而 且 这 些 端点 都 不 是 Kafka。 对 于 那些 面 
临 数 据 集成 问题 的 人 来 说 ， 我 们 建议 他 们 从 大 局 考虑 问题 ， 而 不 只 是 把 注意 
力 集 中 在 少量 的 端点 上 。 过 度 聚 焦 在 短期 问题 上 ， 只 会 增加 后 期 维护 的 复杂 
性 ， 付 出 更 高 的 成 本 。 


本 章 将 讨论 在 构建 数据 管道 时 需要 考虑 的 几 个 常见 问题 。 这 些 问题 并 非 Kafka 独 
有 ， 它 们 都 是 与 数据 集成 相关 的 一 般 性 问题 。 我 们 将 解释 为 什么 可 以 使 用 Kafka 

进行 数据 集成 ， 以 及 它 是 如 何 解 决 这 些 问 题 的 。 我 们 将 讨论 Connect API 与 普通 

的 客户 端 API (Producer 和 Consumer) 之 间 的 区 别 ， 以 及 这 些 客户 端 API 分 别 适 
合 在 什么 情况 下 使 用 。 然 后 我 们 会 介绍 Connect 。Connect | 整 手 册 不 在 本 章 的 
讨论 范围 之 内 ， 不 过 我 们 会 举 儿 个 例子 来 帮助 你 入 门 而 且 会 告诉 你 可 以 从 哪里 
了 解 到 更 多 关于 Connect 的 信息 。 最 后 介 绍 其 他 数据 集成 系统 统 ， 以 及 如 何 将 它们 
与 Kafka 集成 起 来 。 


7.1 构建 数据 管道 时 需要 考虑 的 问题 


本 书 不 打算 讲解 所 有 有 关 构 建 数据 管道 的 细节 ， 我 们 会 着 重 讨论 在 集成 多 个 系统 
时 需要 考虑 的 几 个 最 重要 的 问题 。 


7.1.1 及 时 性 


有 些 系 统 希 望 每 天 一 次 性 地 接收 大 量 数据 ， 而 有 些 则 希望 在 数据 生成 几 毫 秒 之 内 
束 能 拿 到 它们 。 大 部 分 数据 管道 介 于 这 两 者 之 间 。 一 个 好 的 数据 集成 系统 能 够 很 
好 地 文 持 数据 管道 的 各 种 及 时 性 需求 ， 而 且 在 业务 需求 发 生变 更 时 ， 具 有 不 同 及 
时 性 需求 的 数据 表 之 问 可 以 方便 地 进行 迁移 。 Kafka 作为 一 个 基于 流 的 数据 平 
提供 了 可 靠 且 可 伸缩 的 数据 存储 ， 可 以 支持 几 近 实时 的 数据 管道 和 基于 小 时 
的 批 处 理 。 生产 者 可 以 频繁 地 向 Kafka 写 入 数据 ， 也 可 以 按 需 写 入 ; 消费 者 可 以 
在 数据 到 达 的 第 一 时 间 读 取 它 们 ， 也 可 以 每 隔 一 段 时 间 读 取 一 次 积压 的 数据 。 


Kafka 在 这 里 扮演 了 一 个 大 型 缓冲 区 的 角色 ， 降低 了 生产 着 和 漠 沉 阁 之 间 的 时 间 
敏感 度 。 实 时 的 生产 者 和 基于 批 处 理 的 消费 者 可 以 同时 存在 ， 也 可 以 任意 组 合 


实现 回 压 策略 也 因此 变 得 更 加 容易 ，Kafka 本 号 就 使 用 了 回 压 策略 (必要 时 可 以 
延 后 向 生产 者 发 送 确 认 ) ， 消 费 速率 完全 取决 于 消费 者 自己 。 


7.1.2 可靠 性 


我 们 要 避免 单 点 故障 ， 并 能 够 自动 从 各 种 故障 中 快速 恢复 。 数 据 通过 数据 管道 到 
达 业 务 系统 ， 哪 人 出 现 几 秘 钟 的 故障 ， 也 会 造成 灾难 性 的 影响 ， 对 于 那些 要 求 训 
黎 级 四 及 时 性 系统 来 说 尤为 如 此 。 数 据 传递 保证 是 可 靠 性 的 另 一 个 重要 因素 。 有 
些 系 统 允 许 数据 丢失 ， 不 过 在 大 多 数 情况 下 ， 它 们 要 求 至 少 一 次 传递 。 也 就 是 
说 ， 源 系统 的 每 一 个 事件 都 必须 到 达 目 的 地 ， 而 重 试 
可 能 造成 重复 传递 。 有 些 系统 甚至 要 求 仅 一 次 传递 系统 的 每 一 个 事件 都 必 
须 到 达 目 的 地 ， 不 允许 丢失 ， 也 不 允许 重复 。 


我 们 已 经 在 第 6 章 深 入 讨论 了 Kafka 的 可 用 性 和 可 靠 性 保证 。Kafka 本 身 就 支 
持 “ 至 少 一 次 传递 "， 如 果 再 结合 具有 事务 模型 或 唯一 键 特性 的 外 部 存储 系统 ， 
Kafka 也 能 实现 * 仅 一 次 传递 ”。 因为 大 部 分 的 端点 都 是 数据 存储 系统 ， 它们 提供 
0 所 以 基于 Kafka 的 数据 管道 也 能 实现 “ 仅 一 次 传 

。 值 得 一 提 的 是 ， Connect API 为 集成 外 部 系统 提供 了 处 理 偏 移 量 的 API， 连 
0 次 传递 的 端 到 端 数据 管道 。 实 际 上 ， 很 多 开源 的 连接 器 都 
支持 仅 一 次 传递 。 


7.1.3 ”高 吞吐 量 和 动态 吞吐 量 


为 了 满足 现代 数据 系统 的 要 求 ， 数 据 管道 需要 文 持 非常 高 的 吞吐 量 。 更 重要 的 
是 ， 在 某 些 情况 下 ， 数 据 管道 还 需要 能 够 应 对 突 发 的 否 吐 量 增长 。 


由 于 我 们 将 Kafka 作为 生产 者 和 消费 者 之 间 的 缓冲 区 ， 消 费 者 的 否 吐 量 和 生产 者 
的 吞吐 量 束 不 会 耦合 在 一 起 了 。 我 们 也 不 再 需要 实现 复杂 的 回 压 机 制 ， 如 果 生 产 
者 的 吞吐 量 超过 了 消费 者 的 吞吐 量 ， 可 以 把 数据 积压 在 Kafka 里 ， 等 待 消费 者 追 
赶 上 来 。 通 过 增加 额外 的 消费 者 或 生产 者 可 以 实现 Kafka 的 伸缩 ， 因 此 我 们 可 以 
在 数据 管道 的 任何 一 边 进行 动态 的 伸缩 ， 以 便 满足 持续 变化 的 需求 。 


因为 Kafka 是 一 个 高 吞吐 量 的 分 布 式 系统 ， 一 个 适当 规模 的 集群 每 秒 钟 可 以 处 理 
数 百 兆 的 数据 ， 所 以 根本 无 需 担 心 数据 管道 无 法 满足 伸缩 性 需求 。 另 外 ，Connect 
API 不 仅 支 持 伸 缩 ， 而 且 擅长 并 行 处 理 任务 。 稍 后 ， 我 们 将 会 介绍 数据 源 和 数据 
池 (Data Sink) 如 何在 多 个 线程 间 拆 分 任务 ， 最 大 限度 地 利用 CPU 资源 ， 哪 人 是 
运行 在 单 台 机 器 上 。 


Kafka 支持 多 种 类 型 的 压缩 ， 在 增长 吞吐 量 时 ，Kafka 用 户 和 管理 员 可 以 通过 压缩 
来 调整 网 络 和 存储 资源 的 使 用 。 


7.1.4 数据 格式 


二 本 


数据 管道 需要 协调 各 种 数据 格式 和 数据 类 型 ， 这 是 数据 管道 的 一 个 非常 重要 的 因 
素 。 数 据 类 型 取决 于 不 同 的 数据 库 和 数据 存储 系统 。 你 可 能 会 通过 Avro 将 XML 
或 关系 型 数据 加 载 到 Kafka 里 ， 然 后 将 它们 转 成 JSON 写 入 ElasticSearch， 或 者 
转 成 Parquet 写 入 HDFS， 或 者 转 成 CSV 写 入 S3 。 


Kafka 和 Connect API 与 数据 格式 无 关 。 我 们 已 经 在 之 前 的 章节 介绍 生产 者 和 

消费 者 可 以 使 用 各 种 序列 化 器 来 表示 任意 格式 的 数据 。 

存 对 象 模 型 ， 包 括 数据 类 型 和 schema。 不过， 可 以 使 用 一 些 可 插 拔 的 转换 器 将 这 

ns 也 就 是 说 ， 不 管 数据 是 什么 格式 的 ， 都 不 会 限制 我 们 
过 接 


很 多 数据 源 和 数据 池 都 有 schema， 我 们 从 数据 源 读 取 schema， 把 它们 保存 起 
来 ， 并 用 它们 验证 数据 格式 的 兼容 性 ， 甚 至 用 它们 更 新 数据 池 的 schema。 从 
MySQL 到 Hive 的 数据 管道 就 是 一 个 很 好 的 例子 。 如 果 有 人 在 MySQL 里 增加 了 
一 个 字段 ， 那 么 在 加 载 数 据 时 ， 数 据 管道 可 以 保证 Hive 里 也 添加 了 相应 的 字 


段 。 


另外 ， 数 据 池 连 接 器 将 Kafka 的 数据 写 入 外 部 系统 ， 因 此 需要 负责 处 理 数 据 格 
式 。 有 些 连 接 器 把 数据 格式 的 处 理 做 成 可 播 拔 的 ， 比 如 HDFS 的 连接 器 就 文 持 
Avro 和 Parquet 。 


通用 的 数据 集成 框架 不 仅 要 支持 各 种 不 同 的 数据 类 型 ， 而 且 要 处 理 好 不 同 数据 源 
和 数据 池 之 间 的 行为 差异 。 例 如 ， 在 关系 型 数据 库 向 Syslog 发 起 抓 取 数据 请 求 
时 ，Syslog 会 将 数据 推送 给 它们 ， 而 HDFS 只 支持 追加 写 入 模式 ， 只 能 向 HDFS 
| 而 对 于 其 他 很 多 系统 来 说 ， 既 可 以 追加 数据 ， 也 可 以 更 新 已 有 的 数 


7.1.5 ”转换 


数据 转换 比 其 他 需求 更 具 争 议 性 。 数 据 管道 的 构建 可 以 分 为 两 大 阵营 ， 即 ETL 和 
ELT。 ETL 表示 提取 一 转换 一 加 载 (Extract-Transform-Load) ， 也 就 是 说 ， 当 数 
据 流 经 数据 管道 时 ， 数 据 管道 会 负责 处 理 它们 。 这 种 方式 为 我 们 节省 了 时 间 和 在 
储 空间 ， 因 为 不 需要 经 过 保存 数据 、 修 改 数 据 、 再 保存 数据 这 样 的 过 程 。 不 过 ， 
这 种 好 处 也 要 视 情 况 而 定 。 有 了 时候， 这 种 方式 会 给 我 们 带 来 实 实在 在 的 好 处 ， 但 
也 有 可 能 给 数据 管道 造成 不 适当 的 计算 和 存储 负担 。 这 种 方式 有 一 个 明显 不 足 ， 
就 是 数据 的 转换 会 给 数据 管道 下 游 的 应 用 造成 一 些 限制 ， 特 别 是 当下 游 的 应 用 希 
望 对 数据 进行 进一步 处 理 的 时 候 。 假 设 有 人 在 MongoDB 和 MySQL 之 间 建 立 了 
数据 管道 ， 并 且 过 滤 掉 了 一 些 事件 记录 ， 或 者 移 除 了 一 些 字 段 ， 那 么 下 游 应 用 从 
MySQL 中 访问 到 的 数据 是 不 完整 的 。 如 果 它 们 想 要 访问 被 移 除 的 字段 ， 只 能 重 
新 构建 管道 ， 并 重新 处 理 历史 数据 〈 如 果 可 能 的 话 ) 。 


ELT 表示 提取 一 加 载 一 转换 (Extract-Load-Transform) 。 在 这 种 模式 下 ， 数 据 管 
道 只 做 少量 的 转换 (主要 是 数据 类 型 转换 ) ， 确 保 到 达 数 据 池 的 数据 尽 可 能 地 与 
数据 源 保 持 一 致 。 这 种 情况 也 被 称 为 高 保 真 (high fidelity) 数据 管 道 或 数据 湖 


对 


(data lake) 架构 。 目 标 系统 收集 “原始 数据 ?"， 并 负责 处 理 它 们 。 这 种 方式 为 目 
标 系统 的 用 户 提供 了 最 大 的 灵活 性 ， 因为 它们 可 以 访问 到 完整 的 数据 。 在 这 些 系 
统 里 诊断 问题 也 变 得 更 加 容易 ， 对 为 数据 被 集中 在 同一 个 系统 里 进行 处 理 ， 而 不 
征 分 散在 数据 管道 和 其 他 应 用 里 。 这 种 方式 的 不 足 在 于 ， 数 据 的 转换 占用 了 目标 
系统 太 多 的 CPU 和 存储 资源 。 有 时 候 ， 目 标 系统 造价 高 员 ， 如 果 有 可 能 ， 人 们 
希望 能 够 将 计算 任务 移出 这 些 系 统 。 


7.1.6 ”安全 性 


安全 性 是 人 们 一 直 关 心 的 问题 。 对 于 数据 管道 的 安全 性 来 说 ， 人 们 主要 关心 如 下 
几 个 方面 。 


。 我 们 能 否 保证 流 经 数据 管道 的 数据 是 经 过 加 密 的 ? 这 是 跨 数 据 中 心 数 据 管道 
通常 需要 考虑 的 一 个 主要 方面 。 

。 谁 能 够 修改 数据 管道 ? 

| 个 不 受信 任 的 位 置 读 取 或 写 和 数据， 是 否 有 适当 的 认 
i |? 


Kafka 支持 加 密 传 输 数 据 ， 从 数据 源 到 Kafka， 再 从 Kafka 到 数据 池 。 它 还 支持 认 
证 (通过 SASL 来 实现 ) 和 授权 ， 所 以 你 可 以 确信 ， 如 果 一 个 主题 包含 了 敏感 信 
息 ， 在 不 经 授权 的 情况 下 ， 数 据 是 不 会 流 到 不 安全 的 系统 里 的 。Kafka 还 提供 了 
审计 日 志 用 于 跟踪 访问 记录 。 通 过 编写 额外 的 代码 ， 还 可 能 跟踪 到 每 个 事件 的 来 
源 和 事件 的 修改 者 ， 从 而 在 每 个 记录 之 间 建 立 起 整体 的 联系 。 


7.1.7 ”故障 处 理 能 力 


我 们 不 能 总 是 假设 数据 是 完美 的 ， 而 要 事先 做 好 应 对 故障 的 准备 。 能 和 否 总 是 把 缺 
损 的 数据 挡 在 数据 管道 之 外 ? 能 否 恢复 无 法 解析 的 记录 ? 能 否 修复 (或 许可 以 手 
动 进 行 ) 并 重新 处 理 缺 损 的 数据 ?如果 在 若干 天 之 后 才 发 现 原先 看 起 来 正常 的 数 
据 其 实 古 缺损 数据 ， 该 怎么 办 ? 


因为 Kafka 会 长 时 间 地 保留 数据 ， 所 以 我 们 可 以 在 适当 的 时 候 回 过 头 来 重新 处 理 
出 错 的 数据 。 


7.1.8 ”耦合 性 和 灵活 性 
人 
临时 数据 管道 

有 些 公司 为 每 一 对 应 用 程序 建立 单独 的 数据 管道 。 例 如 ， 他 们 使 用 Logstash 


向 ElasticSearch 导入 日 志 ， 使 用 Flume 向 HDFS E 日 志 ， 使 用 GoldenGate 将 
Oracle 的 数据 导 到 HDFS, 使 用 Informatica 将 MySQL 的 数据 或 XML 导 到 


Oracle， 等 等 。 他 们 将 数据 管道 与 特定 的 端点 耦合 起 来 ， 并 创建 了 大 量 的 集成 
点 ， 需 要 额外 的 部 署 、 维 护 和 监控 。 当 有 新 的 系统 加 入 时 ， 他 们 需要 构建 额外 的 
数据 管道 ， 从 而 增加 了 采用 者 技术 的 成 本 ， 同 时 遏制 了 创新 。 


元 数据 丢失 


如 果 数 据 管道 没有 保留 schema 元 数据 ， 而 且 不 允许 schema 发 生变 更 ， 那 么 
最 终 会 导致 生产 者 和 消费 者 之 间 发 生 紧密 的 耦合 。 没 有 了 schema， 生 产 者 和 消费 
者 需 要 额外 的 信息 来 解析 数据 。 假 设 数据 从 Oracle 流向 HDFS， 如 果 DBA 在 
Oracle 里 添加 了 一 个 字段 ， 而 且 没 有 保留 schema 信息 ， 也 不 允许 修改 schema， 
那么 从 HDFS 读 取 数据 时 可 能 会 发 生 错误 ， 办 此 需要 双方 的 开发 人 员 同时 升级 应 
用 程序 才能 解决 这 个 问题 。 不 管 是 哪 一 种 情况 ， 它 们 的 解决 方案 都 不 具备 灵活 
性 。 如 果 数 据 管道 介 许 schema 发 生变 更 ， 应 用 程序 各 方 就 可 以 修改 上 自己 的 代 
人 码 ， 无 需 担 心 对 整个 系统 造成 破坏 。 


末端 处 理 


我 们 在 讨论 数据 转换 时 就 已 提 到 ， 数 据 管 道 难免 要 做 一 些 数据 处 理 。 在 不 同 
的 系统 之 间 移 动 数据 肯定 会 碰 到 不 同 的 数据 格式 和 不 同 的 应 用 场景 。 不 过 ， 如 果 
数据 管道 过 多 地 处 理 数 据 ， 那 么 就 会 给 下 游 的 系统 造成 一 些 限 制 。 在 构建 数据 管 
道 时 所 做 的 设计 决定 都 会 对 下 游 的 系统 造成 束 强 ， 比 如 应 该 你 留 哪 些 字段 或 应 该 
如 何 聚 合 数据 ， 等 等 。 如 果 下 游 的 系统 有 新 的 需求 ， 那 么 数据 管道 就 要 作出 相应 
的 变更 ， 这 种 方式 不 仅 不 灵活 ， 而 且 低 效 、 不 安全 。 更 为 灵活 的 方式 是 尽量 保留 
原始 数据 的 完整 性 ， 让 下 游 的 应 用 上 自己 决定 如 何 处 理 和 聚合 数据 。 


7.2 ”如 何在 Connect API 和 客户 端 API 之 间作 出 选择 


在 向 Kafka 写 入 数据 或 从 Kafka 读 取 数据 时 ， 要 么 使 用 传统 的 生产 者 和 消费 者 客 
户 端 ， 就 像 第 3 章 和 第 4 章 所 描述 的 那样 ， 要 么 使 用 后 面 即将 介绍 的 Connect 
API 和 连接 器 。 在 具体 介绍 Connect API 之 前 ， 我 们 不 妨 先 问 自 己 一 个 问题 : “ 什 
么 时 候 适 合用 哪 一 个 ? ” 


我 们 知道 ，Kafka 客户 端 是 要 被 内 和 巷 到 应 用 程序 里 的 ， 应 用 程序 使 用 它们 辐 Kafka 
写 入 数据 或 从 Kafka 读 取 数据 。 如 果 你 是 开发 人 员 ， 你 会 使 用 Kafka 客户 端 将 应 
用 0 0 Kafka， 并 修改 应 用 程序 的 代码 ， 将 数据 推送 到 Kafka 或 者 从 Kafka 
读 取 类 


如 果 要 将 Kafka 连接 到 数据 存储 系统 ， 可 以 使 用 Connect， 因 为 这 些 系统 不 是 你 
开发 的 ， 你 无 法 或 者 也 不 想 修改 它们 的 代码 。Connect 可 以 用 于 从 外 部 数据 存储 
系统 读 取 数据 ， 或 者 将 数据 推送 到 外 部 存储 系统 。 如 果 数 据 存储 系统 提供 了 相应 
的 连接 器 ， 那 么 非 开 发 人 员 就 可 以 通过 配置 连接 器 的 方式 来 使 用 Connect。 


如 果 你 要 连接 的 数据 存储 系统 没有 相应 的 连接 器 ， 那 么 可 以 考虑 使 用 客户 端 API 
或 Connect API 开发 一 个 应 用 程序 。 我 们 建议 首选 Connect， 因 为 它 提 供 了 一 些 开 
箱 即 用 的 特性 ， 比 如 配置 管理 、 偏 移 量 存储 、 并 行 处 理 、 错 误 处 理 ， 而 且 支 持 多 
种 数据 类 型 和 标准 的 REST 管理 API。 开 发 一 个 连接 Kafka 和 外 部 数据 存储 系统 
的 小 应 用 程序 看 起 来 很 简单 ， 但 其 实 还 有 很 多 细 广 需要 处 理 ， 比 如 数据 类 型 和 配 
置 选项 ， 这 些 无 疑 加 大 了 开发 的 复杂 性 Connect 处 理 了 大 部 分 细节 ， 让 你 可 
以 专注 于 数据 的 传输 。 


7.3 Kafka Connect 


Connect 是 Kafka 的 一 部 分 ， 它 为 在 Kafka 和 外 部 数据 存储 系统 之 间 移 动 数据 提 
供 了 一 种 可 靠 且 可 伸缩 的 方式 。 已 为 连接 器 插件 提供 了 一 组 API 和 一 个 运行 时 
Connect 负责 运行 这 些 插件 ， 它 们 则 负责 移动 数据 。Connect 以 worker 进程 
集群 的 方式 运行 ， 我 们 基于 worker 进程 安装 连接 器 插件 ， 然 后 使 用 REST API 
来 管理 和 配置 connector ， 这 些 worker 进程 都 是 长 时 间 持 续 运行 的 作业 。 连 
接 器 启动 额外 的 task ， ， 有 效 地 利用 工作 节 点 的 资源 ， 以 并 行 的 方式 移动 大 量 的 
数据 。 数 据 源 的 连接 器 负责 从 源 系统 读 取 数据 ， 并 把 数据 对 象 提供 给 worker 进 
程 。 数 据 池 的 连接 器 人 负责 从 worker 进程 获取 数据 ， 并 把 它们 写 入 目标 系统 。 
Connect 通过 connector 在 Kafka 里 存储 不 同 格式 的 数据 。Kafka 支持 JSON， 
而 且 Confluent Schema Registry 提供 了 Avro 转换 器 。 开 发 人 员 可 以 选择 数据 的 存 
储 格式 ， 这 些 完全 独立 于 他 们 所 使 用 的 连接 器 。 


本 章 的 内 容 无 法 完全 覆盖 Connect 的 所 有 细 世 和 各 种 连接 器 ， 这 些 内 容 可 以 单独 
写成 一 本 书 。 不 过 ， 我 们 会 提供 Connect 的 概览 ， 还 会 介绍 如 何 使 用 它 ， 并 提供 
一 些 额 外 的 参考 资料 。 


7.3.1 ”运行 Connect 


Connect 随 着 Kafka 一 起 发 布 ， 所 以 无 需 单 独 安装 。 如 果 你 打算 在 生产 环境 使 用 
Connect 来 移动 大 量 的 数据 ， ee 那么 最 好 把 Connect 部 署 
在 独立 于 broker 的 服务 器 上 。 在 所 有 的 机 器 装 Kafka， 并 在 部 分 服务 器 上 启 
动 broker， 然 后 在 其 他 服务 器 上 启动 0 


启动 Connect 进程 与 启动 broker 差不多 ， 在 调用 脚本 时 传 入 一 个 属性 文件 即 
可 。 


bin/connect-distributed,.sh config/connect-distributed.properties 


Connect 进程 有 以 下 几 个 重要 的 配置 参数 。 


。 bootstrap.servers : 该 参数 列 出 了 将 要 与 Connect 协同 工作 的 broker 服 
务 器 ， 连 接 器 将 会 向 这 些 broker 写 入 数据 或 者 从 它们 那里 读 取 数据 。 你 不 需 

要 指定 集群 所 有 的 broker， 不 过 建议 至 少 指定 3 个 。 

。group ,id : 具有 相同 group id 的 worker 属于 同一 个 Connect 集群 。 集 群 的 
连接 器 和 它们 的 任务 可 以 运行 在 任意 一 个 worker 上 。 

。key .converter 和 value.converter : Connect 可 以 处 理 存储 在 Kafka 

里 的 不 同 格式 的 数据 。 这 两 个 参数 分 别 指定 了 消息 的 键 和 值 所 使 用 的 转换 

器 。 默 认 使 用 Kafka 提供 的 JSONConverter， 当 然 也 可 以 配置 成 Confluent 

Schema Registry 提供 的 AvroConverter 。 


有 些 转换 器 还 包含 了 特定 的 配置 参数 。 例 如 ， 通 过 将 

key,.converter .schema.enable 设置 成 true 或 者 false 来 指定 JSON 消 
筷 是 否 可 以 包含 schema。 值 转换 器 也 有 类 似 的 配置 ， 不 过 它 的 参数 名 是 
value .converter .schema.enable 。Avro 消息 也 包含 了 schema， 不 过 需要 
通过 key,converter .schema.registry.ur1l 和 

value,converter ,schema.registry,url1 来 指定 Schema Registry 的 位 


置 。 


我 们 一 般 通 过 Connect 的 REST API 来 配置 和 监控 rest ,host ,name 和 
rest,port 连接 器 。 你 可 以 为 REST API 指定 特定 的 端口 。 


在 启动 worker 集群 之 后 ， 可 以 通过 REST API 来 验证 它们 是 否 运 行 正常 。 


gwen$ curl http://localhost:8083/ 
{"version":"0.10.1.0-SNAPSHOT", "commit":"561f45d747cd2a8c"} 


这 个 REST URI 应 该 要 返回 当前 Connect 的 版 本 号 。 我 运行 的 是 Kafka 0.10.1.0 


( 预 发 行 ) 快照 版 本 。 我 们 还 可 以 检查 已 经 安装 好 的 连接 器 插件 : 


gwen$ curl http://localhost:8083/connector-plugins 


[{"class":"org.apache.kafka.connect.file.FileSstreamSourceConnector"}, 
{"class":"org.apache.kafka.connect .file.FileStreamSinkConnector"}] 


我 运行 的 是 最 简单 的 Kafka， 所 以 只 有 文件 数据 源 和 文件 数据 池 两 种 插件 可 用 。 


让 我 们 先 来 看 看 如 何 配置 和 使 用 这 些 内 置 的 连接 器 ， 然 后 再 提供 一 些 使 用 外 部 数 
据 存储 系统 的 高 级 示例 。 


和 单机 模式 
要 注意 ，Connect 也 文 持 单 机 模式 。 单 机 模式 与 分 布 式 模式 类 似 ， 只 是 在 局 


动 时 使 用 bin/connect-standalone.sh 代替 bin/connect- 
distributed.sh ， 也 可 以 通过 命令 行 传 入 连接 器 的 配置 文件 ， 这 样 就 不 
需要 使 用 REST API 了 。 在 单机 模式 下 ， 所 有 的 连接 器 和 任务 都 运行 在 单独 
的 worker 进程 上 。 单 机 模式 使 用 起 来 更 简单 ， 特 别 是 在 开发 和 诊断 间 题 的 时 
候 ， 或 者 是 在 需要 让 连接 器 和 任务 运行 在 某 台 特定 机 器 上 的 时 候 (比如 
Syslog 连接 器 会 监听 某 个 端口 ， 所 以 你 需要 知道 它 运 行 在 哪 台 机 器 上 ) 。 


7.3.2 ”连接 器 示例 一 一 文件 数据 源 和 文件 数据 池 


这 个 例子 使 用 了 文件 连接 器 和 JSON 转换 器 ， 它 们 都 是 Kafka 上 自 囊 的 。 接 下 来 要 
确保 Zookeeper 和 Kafka 都 处 于 运行 状态 。 


首先 局 动 一 个 分 布 式 的 worker 进程 。 为 了 实现 高 可 用 性 ， 真 实 的 生产 环境 一 般 需 
要 至 少 2~3 个 worker 集群 。 不 过 在 这 个 例子 里 ， 我 们 只 启动 1 个 。 


bin/connect-distributed.sh config/connect-distributed,.properties & 


现在 开始 启动 一 个 文件 数据 源 。 为 了 方便 ， 直 接 让 它 读 取 Kafka 的 配置 文件 一 一 
把 Kafka 的 配置 文件 内 容 发 送 到 主题 上 。 


echo '{"name":"load-kafka-config", "config":{"connector.class":"FileStream- 
Source", "file":"config/server.properties","topic":"kafka-config-topic"}}'" | 
curl -X POST -d @- http://localhost:8083/connectors --header "content- 
Type:application/json" 


{"name":"load-kafka-config","config":{"connector.class":"FileSstream- 
Source", "file":"config/server.properties","topic":"kafka-configtopic"," 
name":"load-kafka-config"},"tasks":[]} 


我 写 了 一 个 JSON 厂 段 ， 里 面包 含 了 连接 器 的 名 字 load-kafka-config 和 连 
过 器 的 配置 信息 ， 配 置信 息 包含 了 连接 器 的 类 名 、 需 要 加 载 的 文件 名 和 主题 的 名 
学 Lo) 


下 面 通过 Kafka 的 控制 台 消费 者 来 验证 配置 文件 是 否 已 经 被 加 载 到 主题 上 了 : 


gwen$ bin/kafka-console-consumer.sh --new --bootstrap-server=localhost:9092 - 


topic kafka-config-topic --from-beginning 


如 采 一 切 正常 ， 可 以 看 到 如 下 的 输出 : 


{"schema":{"type":"string","optional":false}, "payload":"# Licensed to the 
Apache Software Foundation (ASF) under one or more"} 


< 省 略 部 分 > 


{"schema": 

{"type":"string", "optional":false}, "payload" ;"###################################### 
Server Basics 

################################ 检 ##################" 》 
{"schema":{"type":"string","optional":false}, "payload":""} 
{"schema":{"type":"string", "optional":false}, "payload":"# The id of the 
broker. 

This must be set to a unique integer for each broker."} 
{"schema":{"type":"string", "optional":false}, "payload":"broker.id=0"} 
{"schema":{"type":"string","optional":false}, "payload":""} 


< 省 略 部 分 > 


以 上 输出 的 是 config/server .properties 文件 的 内 容 ， 这 些 内 容 被 一 行 一 
行 地 转 成 JSON 记录 ， 并 被 连接 器 发 送 到 kafka-config-topic 主题 上 上。 默认 
博 况 下 ，JSON 转换 器 会 在 每 个 记录 里 附带 上 schema。 这 里 的 schema 非常 简单 
只 有 一 个 payload 列 ， 它 是 字符 串 类 型 ， 并 且 包 含 了 文件 里 的 一 行内 容 。 


现在 使 用 文件 数据 池 的 转换 器 把 主题 里 的 内 容 导 到 文件 里 。 导 出 的 文件 内 容 应 该 
与 原始 server .properties 文件 的 内 容 完全 一 样 ，JSON 转化 器 将 会 把 每 个 
JSON 记录 转 成 单行 文本 。 


echo '{"name":"dump-kafka-config", "config": 
{"connector.class":"FileStreamSink","file":"copy-of-serverproperties"," 
topics":"kafka-config-topic"}}' | curl -x POST -d @- http://localhost: 
8083/connectors --header "content-Type:application/json" 


{"name":"dump-kafka-config", "config": 


{"connector.class":"FileSstreamSink", "file":"copy-of-serverproperties"," 
topics":"kafka-config-topic", "name":"dump-kafka-config"},"tasks": 


[]} 


这 次 的 配置 发 生 了 变化 : 我们 使 用 了 类 名 FileStreamSink ， 而 不 是 
FilestreamSource ; 文件 属性 指向 目标 文件 ， 而 不 是 原先 的 文件 ， 我 们 指定 


了 topics ， 而 不 是 topic。 可 以 使 用 数据 池 将 多 个 主题 写 入 一 个 文件 ， 而 一 个 
数据 源 只 允许 被 写 入 一 个 主题 。 


如 果 一 切 正 常 ， 你 会 得 到 一 个 叫 作 copy-of-server-properties 的 文件 ， 
该 文件 的 内 容 与 config/server .properties 完全 一 样 。 


如 采 要 删除 一 个 连接 器 ， 可 以 运行 下 面 的 命令 : 


curl -X DELETE http://localhost:8083/connectors/dump-kafka-config 


在 删除 连接 器 之 后 ， 如 果 查 看 Connect 的 日 志 ， 你 会 发 现 其 他 的 连接 器 会 重启 它 
们 的 任务 。 这 是 为 了 在 worker 进程 间 平 衡 剩 余 的 任务 ， 确 保 删 除 连 接 器 之 后 可 以 
保持 负载 的 均衡 。 


7.3.3 ”连接 器 示例 一 一 从 MySQL 到 ElasticSearch 


接 下 来 ， 我 们 要 做 一 些 更 有 用 的 事情 。 这 次 ， 我 们 将 一 个 MySQL 的 表 数 据 导入 
到 一 个 Kafka 主题 上 ， 再 将 它们 加 载 到 ElasticSearch 里 ， 然 后 对 它们 的 内 容 进 行 


O 


人 NN 


我 是 在 自己 的 Mac 笔记 本 上 运行 测试 的 ， 使 用 了 下 面 的 命令 来 安装 MySQL 和 


ElasticSearch: 


brew install mysql 
brew install elasticsearch 


下 一 步 要 确保 已 经 有 可 用 的 连接 器 。 如 果 使 用 的 是 Confluent OpenSource， 这 个 
平台 已 经 包含 了 相关 的 连接 器 ， 否 则 就 要 从 GitHub 上 下 载 和 安装 。 


(1) 打开 网 页 https://github.com/confluentinc/kafka-connect-elasticsearch 。 
(2) 把 代码 复制 到 本 地 。 
(3) 使 用 mvn install 来 构建 项 目 。 


(4) 按照 相同 的 步骤 安装 JDBC 连接 器 : https://github.com/confluentinc/kafka- 
connect-jdbc ° 


接 下 来 把 每 个 target 目录 下 生成 的 JAR 包 复 制 到 Connect 的 类 路 径 中 。 


gwen$ mkdir libs 

gwen$ cp ../kafka-connect-jdbc/target/kafka-connect-jdbc-3.1.0-SNAPSHOT.jar 
libs/ 

gwen$ cp ../kafka-connect-elasticsearch/target/kafka-connectelasticsearch- 
3.2.0-SNAPSHOT-package/share/java/kafka-connect-elasticsearch/* 


libs/ 


如 果 worker 进程 还 没有 启动 ， 需 要 先 启动 它们 ， 然 后 检查 新 的 连接 器 插件 是 
经 安装 成 功 : 


0 
| 
加 


gwen$ bin/connect-distributed,.sh config/connect-distributed.properties & 


gwen$ curl http://localhost:8083/connector-plugins 
[{"class":"org.apache.kafka.connect.file.FileSstreamSourceConnector"}, 
{"class":"io.confluent.connect.elasticsearch.ElasticsearchSinkConnector"}, 
{"class":"org.apache.kafka.connect.file.FileStreamSinkConnector"}, 
{"class":"io.confluent.connect.jdbc.JdbcSourceConnector"}] 


从 上 面 的 输出 可 以 看 到 ， 新 的 连接 器 插件 已 经 安装 成 功 了 。JDBC 连接 器 还 需要 
一 个 MySQL 驱动 程序 。 我 们 从 Oracle 0 MySQL 的 JDBC 驱动 程 
序 ， 并 将 其 解压 ， 然 后 把 mysql-connector-java-5.1.40-bin.jar 复制 
到 1ibs/ 目录 下 。 


下 儿 汪 作 MySQL 里 创建 一 张 表 。 可 以 使 用 JDBC 连接 器 将 其 以 流 的 方式 发 送 
给 Kafka。 


tH 


gwen$ mysql.server restart 


mysql> create database test,; 
Query OK, 1 row affected (0.00 sec) 


mysql> use test; 

Database changed 

mysql> create table login (username varchar(30), login_time datetime); 
Query OK, © rows affected (0.02 sec) 


mysql> insert into login values ('gwenshap', now()); 


Query OK, 1 row affected (0.01 sec) 


mysql> insert into login values ('tpalino', now()); 
Query OK, 1 row affected (0.00 sec) 


mysql> commit; 
Query OK, © rows affected (0.01 sec) 


我 们 创建 了 一 个 数据 库 和 一 张 表 ， 并 插入 了 一 些 测试 数据 。 


接 下 来 要 配置 JDBC 连接 器 。 可 以 从 文档 中 找到 所 有 可 用 的 配置 项 ， 也 可 以 通过 
REST API 找到 它们 : 


gwen$ curl -X PUT -d "{}" localhost:8083/connector- 
plugins/JdbcSourceConnector/ 

config/validate --header "content-Type:application/json" | python -m 
json.tool 


"configs": [ 
{ 
"definition": 区 
"default_value": "™", 
"dependents": [], 
"display_name": "Timestamp Column Name", 
"documentation": "The name of the timestamp column to use 
to detect new or modified rows. This column may not be 
nullable." 
"group": "Mode", 
"importance": "MEDIUM", 
"name": "timestamp.column.name", 
"order": 3, 
"required": false, 
"type": "STRING", 
"width": "MEDIUM" 
}, 
< 省 略 部 分 > 


我 们 向 REST API 发 起 验证 连接 器 的 请 求 ， 并 传 给 它 一 个 空 的 配置 ， 得 到 的 是 所 
有 可 用 的 配置 项 ， 并 以 JSON 的 格式 返回 。 为 了 方便 阅读 ， 下 面 使 用 Python 对 
JSON 进行 了 格式 化 。 


有 了 这 些 信息 ， 就 可 以 创建 和 配置 JDBC 连接 器 了 


echo '{"name":"mysql-login-connector", "config": 
{"connector.class":"JdbcSource- 

Connector", "connection.url":"jdbc:mysql://127.0.0.1:3306/test? 
user=root", "mode":"timestamp", "table.whitelist":"]ogin","validate. 
non.null": false, "timestamp.column.name":"]ogin_time","topic.prefix":" 
mysql."}}'" | curl -X POST -d @- http://localhost:8083/connectors --header 
"content-Type:application/json" 


{"name":"mysql-login-connector", "config": 
{"connector.class":"JdbcSourceConnector"," 
connection.url":"jdbc:mysql://127.0.0.1:3306/test? 

user=root", "mode":"timestamp","table.whitelist":"login","validate.non.null":" 
fal 

se", "timestamp.column.name":"login_time","topic,.prefix":"mysql.", "name":"mysdqd 
J]login- 


connector"}, "tasks":[]} 


为 了 确保 连接 器 工作 正常 ， 我 们 从 mysq1l.1login 主题 上 读 取 数据 。 


gwen$ bin/kafka-console-consumer.sh --new --bootstrap-server=localhost:9092 - 


topic mysql.login --from-beginning 


< 省 略 部 分 > 


{"schema":{"type":"struct", "fields": 
[{"type":"string","optional":true,"field":"username"}, 
{"type":"int64","optional":true, "name":"org.apache.kafka.connect.data.Timesta 
mp", nh 

version":1,"field":"login_ time"}],"optional":false, "name":"]ogin"}, "payload": 


username":"gwenshap","login_ time":1476423962000}} 
{"schema":{"type":"struct", "fields": 
[{"type":"string","optional":true,"field":"username"}, 
{"type":"int64","optional":true, "name":"org.apache.kafka.connect.data.Timesta 
mp", 1 

version":1,"field":"login_ time"}],"optional":false, "name":"]ogin"}, "payload": 


username":"tpalino","]ogin_time":1476423981000}} 


如 果 得 到 一 个 “主题 不 存在 ”的 错误 信息 ， 或 者 看 不 到 任何 数据 ， 可 以 检查 一 下 
Connect 的 日 志 。 


[2016-10-16 19:39:40,482] ERROR Error while starting connector mysql- 
loginconnector 

(org.apache.kafka.connect.runtime.WorkerConnector:108) 
org.apache.kafka.connect.errors.ConnectException: java.sql.SQLException: 
Access 

denied for user 'root;'@'localhost' (using password: NO) 


at 
io.confluent.connect.jdbc,.JdbcSourceConnector.start(JdbcSourceConnector. 
java:78) 


我 反复 尝试 了 儿 次 才 找 到 正确 的 连接 串 。 如 果 还 有 其 他 问题 ， 请 检查 类 路 径 里 古 
否 包含 了 驱动 程序 ， 或 者 是 否 有 数据 表 的 读 取 权 限 。 


你 会 看 到 ， 在 连接 器 运行 期 间 ， 向 login 表 插 入 的 数据 会 立即 出 现在 
mysql.1login 主题 上 。 


把 数据 从 MySQL 移动 到 Kafka 里 就 算 完成 了 ， 接 下 来 把 数据 从 Kafka 写 到 
ElasticSearch 里 ， 这 个 会 更 有 意思 。 


首先 启动 ElasticSearch， 并 验证 是 否 访问 本 地 端口 : 


gwen$ elasticsearch & 
gwen$ curl http://localhost:9200/ 
{ 
"name" :; "Hammerhead", 
"cluster_name" : "elasticsearch gwen", 
"cluster_uuid" : "42D5Grx0OQFebf83DYgN1l-g", 
"version™" : 
"number™ : "2.4.1"， 
"build_hash" : "c67dc32e24162035d18d6fe1le952c4cbcbe79d16", 
"build_ timestamp" : "2016-09-27T18:57:552", 
"build_snapshot" : false, 
"lucene_version™" : "5.5.2" 
}, 


"tagline" :; "You Know, for Search" 


下 面 局 动 连接 器 : 


echo '{"name":"elastic-login-connector", "config": 
{"connector.class":"ElasticsearchSinkConnector"," 
connection.url":"http://localhost: 

9200", "type.name":"mysql-data", "topics":"mysql.1login","key.ignore":true}}' | 
curl -X POST -d @- http://localhost:8083/connectors --header "content- 
Type:application/json" 


{"name":"elastic-login-connector","config":{"connector.class":"Elasticsearch- 
SinkConnector", "connection.url":"http://localhost:9200", "type.name":"mysqldat 
a . TT 

topics":"mysql.login", "key.ignore":"true", "name":"elastic-loginconnector"}, 
"tasks":[{"connector":"elastic-login-connector", "task":0}]} 


这 里 有 一 些 配 置 项 。 Connection.ur1l 是 本 地 ElasticSearch 服务 


器 的 地 址 。 默 认 情 况 下 ， 每 个 Kafka 主题 对 应 ElasticSearch 里 的 一 个 索引 ， 主 题 
的 名 字 与 索引 的 名 字 相间 。 。 , 我 们 需要 在 主题 内 为 即将 写 入 的 数据 定义 好 类 别 。 我 
们 假设 所 有 数据 属于 同一 种 类 别 ， 所 以 硬 编码 了 一 个 类 别 type.name=mysq1- 
data。 只 有 mysql.1ogin 主题 里 的 数据 会 被 写 入 ElasticSearch。 另 外 ， 在 创 
建 MySQL 数据 表 时 没有 为 其 指定 主键 ， 而 Kafka 数据 的 键 是 null， 所 以 要 让 
ElasticSearch 连接 器 使 用 主题 名 字 、 分 区 id 和 偏 移 量 作为 数据 的 键 。 同 时 ， 需 要 
把 key.ignore 设置 为 true 。 


先 来 验证 是 否 已 经 为 mysqlL.1Login 主题 的 数据 创建 好 索引 了 。 


gwen$ curl 'localhost:9200/_cat/indices?v' 

health status index pri rep docs.count docs.deleted store.size 
pri.store.size 

yellow open mysql.1login 5 1 3 0 10.7kb 


10.7Kkb 


如 果 索 引 还 没有 创建 好 ， 可 以 检查 一 下 Connect 的 日 志 。 如 果 出 现 错误 ， 


是 因为 缺少 配置 项 或 依赖 包 。 如 有 果 一 切 正常 ， 束 可 以 查询 到 索引 数据 了 。 


一 般 都 


gwen$ curl -s -X "GET" "http://localhost:9200/mysql.1login/_search? 
pretty=true" 


{ 
"took" : 29, 
"timed_out" : false, 
"_shards™" :; 
"total" : 5, 
"successful" : 5, 
"failed" :; 0 
}, 
"hits" : { 
"total™" :; 3, 
"max_score" : 1.0, 
"hits" : [ { 
"_index" : "mysql.1login", 
"_type" : "mysql-data", 
"_id" :; "mysql.login+0+1", 
"Score"”: 1.0, 
"_source" ; { 
"Username" : "tpalino", 
"Jogin_time" : 1476423981000 
} 
}, 
"_index" : "mysql.1login", 
"_type" : "mysql-data", 
"_id" : "mysql.login+0+2", 
"Score"”: 1.0, 
"_source" 
"Username" : "nnarkede", 
"Jogin_time" : 1476672246000 
} 
}, 
"_index" : "mysql.1login", 
"_type" : "mysql-data", 
"_id" : "mysql.login+0+0", 
"Score"”: 1.0, 
"” Source" :区 
"Username" : "gwenshap", 
"Jogin_time" : 1476423962000 
} 
}] 


| 
如 果 在 MySQL 里 插入 新 的 数据 ， 它们 会 自动 出 现在 Kafka 的 mysql.1login 主 
题 以 及 ElasticSearch 相应 的 索引 里 


现在 ， 我 们 已 经 知道 如 何 构建 与 安装 JDBC 连接 器 和 ElasticSearch 连接 器 了 ， 人 也 
可 以 根据 具体 需要 构建 和 安装 任意 的 连接 器 。Confluent 提供 了 一 个 可 用 的 连接 器 
清单 (http:/www.confluent.io/product/connectors/ ) ， 一 些 公司 和 社区 在 开发 和 维 
护 这 些 连 接 器 。 你 可 以 从 中 挑选 你 想 用 的 连接 器 ， 从 GitHub 上 获取 它们 的 代 
自行 构建 ， 并 根据 文档 或 者 通过 REST API 获取 配置 项 ， 配 置 好 以 后 在 自己 
的 Comnea 集群 上 运行 。 


和 构建 自己 的 连接 器 


任何 人 都 可 以 基于 公开 的 Connector API 创建 自己 的 连接 器 。 事 实 上， 人 们 
创建 了 各 种 连接 器 ， 然 后 把 它们 发 布 到 连接 器 中 心 (Connector Hub) ， 并 告 
诉 我 们 怎么 使 用 它们 。 如 果 你 在 连接 器 中 心 找 不 到 可 以 适 配 你 要 集成 的 数据 
在 情 系 统 的 连接 器 ， 可 以 开发 自己 的 连接 器 。 你 也 可 以 把 自己 的 连接 器 贡献 

给 社区 ， 让 更 多 的 人 知道 和 使 用 它们 。 关 于 构建 连接 器 的 更 多 细节 已 经 超出 
了 本 章 的 讨论 犯 围 ， 不 过 可 以 参考 官方 文档 学 习 如 何 构建 连接 器 

(http://docs.confluent.io/3.0.1/connect/devguide.html ) 。 我 们 也 建议 将 已 有 的 
连接 器 作为 入 门 参考 ， 或 者 从 使 用 maven archtype 

(https://github.com/jcustenborder/kafka-connect-archtype ) 开始 。 另 外 ， 可 以 
在 Kafka 的 社区 邮件 组 (users@ kafka.apache.org) 寻求 帮助 ， 或 者 在 邮件 组 
里 展示 自己 的 连接 器 。 


7.3.4 ”深入 理解 Connect 
要 理解 Connect 的 工作 原理 ， 需 要 先知 道 3 个 基本 概念 ， 以 及 它们 之 间 是 如 何 进 
行 交 互 的 。 我 们 已 经 在 之 前 的 示例 里 演示 了 如 何 运行 worker 进程 集群 以 及 如 何 
启动 和 关闭 连接 器 。 不 过 我 们 并 没有 深入 解释 转化 器 是 如 何 处 理 数据 的 转 
换 器 把 MySQL 的 数据 行 转 成 JSON 记录 ， 然 后 由 连接 器 将 它们 写 入 Kafka 。 
现在 让 我 们 深入 理解 每 一 个 组 件 ， 以 及 它们 之 间 是 如 何 进行 交互 的 。 

01. 连接 器 和 任务 

连接 器 插件 实现 了 Connector API，API 包含 了 两 部 分 内 容 。 


连接 器 


号 


0 


DD 


连接 器 人 负责 以 下 3 件 事情 。 


决定 需要 运行 多 少 个 任务 。 
按照 任务 来 拆 分 数据 复制 。 


从 worker 进程 获取 任务 配置 并 将 其 传递 下 去 。 例 如 ，JDBC 连接 器 会 连 


接 到 数据 库 ， 统 计 需 要 复制 的 数据 表 ， 并 确定 需要 执行 多 少 个 任务 ， 然 


后 在 配置 参数 max. tasks 和 实际 数据 量 之 间 选 择 数值 较 小 的 那 
任务 数 。 在 确定 了 任务 数 之 后 ， 连 接 器 会 为 每 个 任务 生成 一 个 配置 ， 配 
置 里 包含 了 连接 器 的 配置 项 (比如 connection.url) 和 该 任务 需要 
复制 的 数据 表 。taskconfigs( ) 方法 返回 一 个 映射 列表 ， 


个 作为 


> : 


含 了 任务 的 相关 配置 。worker 进程 负责 启动 和 配置 任务 ， 每 个 任务 
如 果 通 过 REST API 启动 连接 器 ， 有 全 
那么 连接 器 的 任务 就 会 在 该 节点 上 执行 。 


制 配置 项 里 指定 的 数据 表 。 
局 动 任意 世 点 上 的 连接 器 ， 


任务 


任务 负责 将 数据 移入 或 移出 Kafka。 任 务 在 初始 化 时 会 得 到 由 worker 进 
程 分 配 的 一 个 上 下 文 : 源 系统 上 下 文 (Source Context) 包含 了 一 个 对 象 ， 可 
量 保存 在 上 下 文 里 〈 例 如， 文件 连接 器 的 偏 移 


件 里 的 字 节 位 置 ，JDBC 连接 器 的 偏 移 量 可 以 是 数据 表 的 主键 ID) 


系统 连接 器 的 上 下 文 提供 了 a 


到 的 数据 ， 比 如 进行 数据 清理 、 


便 实 现 仅 一 次 传递 。 任 务 在 完成 初始 化 之 后 ， 


- 旦 . 


多 量 就 是 
。 目标 


连接 器 可 以 用 它们 操作 从 Kafka 接收 


错误 重 试 ， 或 者 将 偏 移 量 保存 到 外 部 系统 以 


谍 开 始 按 照 连 接 器 指定 的 配置 


(包含 在 一 个 Properties 对 象 里 ) 启动 工作 。 源 系统 任务 对 外 部 系统 进 


行 轮 询 ， 并 返回 一 些 记录 ，worker 进程 将 这 些 记 录 发 送 到 Kafka 。 


务 通 过 worker 进程 接收 来 自 Kafka 的 记录 ， 并 将 它们 写 入 外 部 系统 。 


. Worker 进程 


worker 进程 是 连接 器 和 任务 的 


‘容器 *”。 它 们 负责 处 理 HTTP 请 求 ， 这 


用 于 定义 连接 右 和 连接 器 的 配置 。 它 们 还 负责 保存 连接 器 的 配置 、 局 
器 和 连接 器 任务 ， 并 把 配置 信息 传递 给 任务 。 如 果 一 个 worker 进程 停止 工作 


或 者 发 生 月 浇 ， 集 群 里 的 其 他 worker 进程 会 感知 到 (Kafka 的 消 
供 了 心跳 检测 机 制 ) ， 并 将 朋 演 进程 的 连接 器 和 任务 重新 分 配给 其 他 进程 。 


如 果 有 新 的 进程 加 入 集群 ， 其 他 进程 也 会 感知 到 ， 并 将 自己 的 连接 器 
分 配给 新 的 进程 ， 确 保 工 作 人 负载 的 均衡 。 进 程 还 负责 提交 偏 移 量 ， 如 


抛 出 异常 ， 可 以 基于 这 些 偏 移 量 


量 进行 重 试 。 


数据 池 任 


些 请 求 
动 连接 


费 者 协议 提 


和 任务 
果 任 务 


为 了 更 好 地 理解 worker 进程 ， 我 们 可 以 将 其 与 连接 器 和 任务 进行 简单 的 比 


较 。 连 接 器 和 任务 负责 “数据 的 


移动 ”， 而 worker 进程 负责 REST API、 


管理 、 可 靠 性 、 高 可 用 性 、 伸 缩 性 和 负载 均衡 。 
全 我 们 带 来 的 最 大 好 处 ， 而 这 种 好 处 是 普通 


这 种 关注 点 分 离 是 Connect API 双 


客户 端 API 所 不 具备 的 。 。 有 经 验 的 开发 人 员 都 知道 ， 


配置 


编写 代码 从 Kafka 读 取 


03. 


04. 


数据 并 将 其 插入 数据 库 只 需要 一 到 两 天 的 时 间 ， 但 是 如 东 要 处 理 好 配置 
常 、REST API、 监 控 、 部 署 、 伸 缩 、 失 效 等 问题 ， 可 能 需要 几 个 月 。 如 果 你 
使 用 连接 回来 实现 数据 复制 ， 连接 器 插件 会 为 你 处 理 掉 一 大 堆 复 杂 的 问题 。 


转化 器 和 Connect 的 数据 模型 


数据 模型 和 转化 器 露 征 C Connect API 需要 讨论 的 最 后 一 部 分 内 容 。Connect 提供 
了 一 组 数据 对 象 和 用 于 描述 数据 的 schema。 例 如 ， 
JDBC 连接 器 从 数据 库 读 取 了 一 个 字段 ， 并 基于 这 个 字段 的 数据 类 型 创建 了 
一 个 Connect Schema 对 象 。 然 后 使 用 这 些 Schema 对 象 创建 一 个 包含 了 
所 有 数据 库 字段 的 Struct 一 一 我 们 保存 了 每 一 个 字段 的 名 字 和 它们 的 值 。 
源 连接 器 所 做 的 事情 部 很 相似 一 一 从 源 系 完 恋 取 事 件 ， 并 为 每 个 事件 生成 
schema 和 值 ( 值 就 是 数据 对 象 本 身 ) 。 日 标 连接 器 正好 相反 ， 它 们 获取 
schema 和 值 ， 并 使 用 schema 来 解析 值 ， 然 后 写 入 到 目标 系统 。 


源 连接 器 只 负责 基于 Data API 生成 数据 对 象 ， 那 么 worker 进程 是 如 何 将 这 
些 数据 对 象 保存 到 Kafka 的 ? 这 个 时 候 ， 转 换 器 就 派 上 用 场 了 。 用 户 在 配置 
worker 进程 〈 或 连接 器 ) 时 可 以 选择 使 用 合适 的 转化 器 ， 用 于 将 数据 保存 到 
Kafka 目前 可 用 的 转化 器 有 Avro、JSON 和 String。JSON 转化 器 可 以 在 转 
换 结 果 里 附带 上 schema， 当 然 也 可 以 不 使 用 schema， 这 个 是 可 配 的 。Kafka 
系统 因此 可 以 支持 结构 化 的 数据 和 半 结 构 化 的 数据 。 连 接 器 通过 Data API 将 
数据 返回 给 worker 进程 ，worker 进程 使 用 指定 的 转化 器 将 数据 转换 成 Avro 
对 象 、JSON 对 象 或 者 字符 串 ， 然 后 将 它们 写 入 Kafka。 


对 于 目标 连接 器 来 说 ， 过 程 刚 好 相反 在 从 Kafka 读 取 数据 时 ，worker 进 

旦 使 用 指定 的 转换 器 将 各 种 格式 (Avro、JSON 或 String) 的 数据 转换 成 

a .0 然后 将 它们 传 给 目标 连接 器 ， 目 标 连 接 器 再 将 它们 插 
| 小 天 统 


Connect API i 数据 类 型 与 连接 器 的 实现 是 相 
3 ， 连 接 右 和 数据 类 型 可 以 自由 组 合 。 


] 


暴 


偏 移 量 管理 


worker 进程 的 REST API 提供 了 部 署 和 配置 管理 服务 ， 除 此 之 外 ，worker 进 
程 还 提供 了 偏 移 量 管理 服务 。 连 接 器 只 要 知道 哪些 数据 是 已 经 被 处 理 过 的 ， 
就 可 以 通过 Kafka 提供 的 API 来 维护 偏 移 量 。 


源 连接 器 返回 给 worker 进程 的 记录 里 包含 了 一 个 逻辑 分 区 和 一 个 逻辑 偏 移 
量 。 它 们 并 非 Kafka 的 分 区 和 偏 移 量 ， 而 是 源 系 统 的 分 区 和 偏 移 量 。 例 如 ， 

对 于 文件 源 来 说 ， 分 区 可 以 是 一 个 文件 ， 偏 移 量 可 以 是 文件 里 的 一 个 行 号 或 
者 字符 号 ;而 对 于 JDBC 源 来 说 ， 分 区 可 以 是 一 个 数据 表 ， 偏 移 量 可 以 是 
条 记录 的 主键 。 - 在 设计 二 个 源 连 接 器 时 ， 要 着 重 考 虑 如 何 对 源 系 统 的 数据 进 


和 


行 分 区 以 及 如 何 跟踪 偏 移 量 ， 这 将 影响 连接 器 的 并 行 能 力 ， 也 决定 了 连接 器 
是 否 能 够 实现 至 少 一 次 传递 或 者 仅 一 次 传递 。 


源 连接 器 返回 的 记录 里 包含 了 源 系 统 的 分 区 和 偏 移 量 ，worker 进程 将 这 些 记 
录 发 送 给 Kafka。 如 果 Kafka 确认 记录 保存 成 功 ，worker 进程 就 把 偏 移 量 保 
存 下 来 。 偏 移 量 的 存储 机 制 是 可 播 拔 的 ， 一 般 会 使 用 Kafka 主题 来 保存 。 如 
果 连 接 器 发 生 朋 省 并 重启 ， 它 可 以 从 最 近 的 偏 移 量 继续 处 理 数据 。 


目标 连接 器 的 处 理 过 程 恰 好 相反 ， 不 过 也 很 相似 。 它 们 从 Kafka 上 读 取 包含 
了 主题 、 分 区 和 偏 移 量 信息 的 记录 ， 然 后 调用 连接 器 的 put( ) 方法 ， 该 方 
法 会 将 记录 保存 到 目标 系统 里 。 如 果 保 存 成 功 ， 连 接 器 会 通过 消费 者 客户 端 
将 偏 移 量 提交 到 Kafka 上 。 


框架 提供 的 偏 移 量 跟踪 机 制 简 化 了 连接 器 的 开发 工作 ， 并 在 使 用 多 个 连接 器 
时 保证 了 一 定 程度 的 行为 一 致 性 。 


7.4 ”Connect 之 外 的 选择 


现在 ， 我 们 对 Connect API 有 了 更 加 深入 的 了 解 ， 不 仅 知道 如 何 使 用 它们 ， 还 知 
道 它们 的 一 些 工 作 原理 。 虽 然 Connect API 为 我 们 提供 了 便利 和 可 靠 性 ， 但 它 并 
非 唯 一 的 选择 。 下 面 看 看 还 有 哪些 可 用 的 框架 ， 以 及 在 什么 时 候 可 以 使 用 它们 。 


7.4.1 用 于 其 他 数据 存储 的 摄 入 框架 


虽然 我 们 很 想 说 Kafka 是 至 高 无 上 的 明星 ， 但 肯定 会 有 人 不 同意 这 种 说 法 。 有 些 
人 将 Hadoop 或 ElasticSearch 作为 他 们 数据 架构 的 基础 ， 这 些 系统 都 有 自己 的 数 
据 摄 入 工具 。Hadoop 使 用 了 Flume，ElasticSearch 使 用 了 Logstash 或 Fluentd。 如 
有 果 织 构 里 包含 了 Kafka， 并 且 需 要 连接 大 量 的 源 系统 和 目标 系统 ， 那 么 建议 使 用 
Connect API 作为 摄 入 工具 。 如 果 构 建 的 系统 是 以 Hadoop 或 ElasticSearch 为 中 心 
的 ，Kafka 只 是 数据 的 来 源 之 一 ， 那 么 使 用 Flume 或 Logstash 会 更 合适 。 


7.4.2 ”基于 图 形 界面 的 ETL 工 具 


从 保守 的 Informatica 到 一 些 开源 的 替代 方案 ， 比 如 Talend 和 Pentaho， 或 者 更 新 
的 Apache NiFi 和 StreamSets 一 一 这 些 ETL 解决 方案 都 支持 将 Kafka 作为 数据 源 
和 数据 池 。 如 果 你 已 经 使 用 了 这 些 系统 ， 比 如 Pentaho， 那 么 就 可 能 不 会 为 了 
Kafka 而 在 系统 里 增加 男 一 种 集成 工具 。 如 果 你 已 经 习惯 了 基于 图 形 界面 的 ETL 
数据 管道 解决 方案 ， 那 就 继续 使 用 它们 。 不 过 ， 这 些 系统 有 一 些 不 足 的 地 方 ， 那 
就 是 它们 的 工作 流 比 较 复 杂 ， 如 果 你 只 是 希望 从 Kafka 里 获取 数据 或 者 将 数据 写 
入 Kafka， 那 么 它们 就 显得 有 点 笨重 。 我 们 在 本 章 的 开头 部 分 已 经 说 过 ， 在 进行 
数据 集成 时 ， 应 该 将 注意 力 集中 在 消息 的 传输 上 。 因 此 ， 对 于 我 们 来 说 ， 大 部 分 
ETL 工具 都 太 过 复杂 了 。 


我 们 极力 建议 将 Kafka 当成 是 一 个 支持 数据 集成 (使 用 Connect) 、 应 用 集成 
(使 用 生产 者 和 消费 者 和 流 式 处 理 的 平台 。Kafka 完全 可 以 成 为 ETL 工具 的 替 


代 品 。 
7.4.3” 流 式 处 理 框 架 


几乎 所 有 的 流 式 处 理 框架 都 具备 从 Kafka 读 取 数据 并 将 数据 写 入 外 部 系统 的 能 
力 。 如 果 你 的 目标 系统 支持 流 式 处 理 ， 并 且 你 已 经 打算 使 用 流 式 框架 处 理 来 自 
Kafka 的 数据 ， 那 么 使 用 相同 的 框架 进行 数据 集成 看 起 来 是 很 合理 的 。 这 样 可 以 
省 掉 一 个 处 理 步 又 (不 需要 保存 来 自 Kafka 的 数据 ， 而 是 直接 从 Kafka 读 取 数据 
然后 写 到 其 他 系统 ) ， 不 过 在 发 生 数据 丢失 或 者 出 现 脏 数据 时 ， 诊 断 问题 会 变 得 
人 


7.5 ”总结 


本 章 讨 论 了 如 何 使 用 Kafka 进行 数据 集成 ， 从 解释 为 什么 要 使 用 Kafka 进行 数据 
集成 开始 ， 到 说 明 数 据 集成 方案 的 一 般 性 考虑 点 。 我 们 先 解释 了 为 什么 Kafka 和 
Connect API 是 一 种 更 好 的 选择 ， 然 后 给 出 了 一 些 例 子 ， 演 示 如 何在 不 同 的 场景 
下 使 用 Connect， 并 深入 了 解 了 Connect 的 工作 原理 ， 最 后 介绍 了 一 些 Connect 之 
外 的 数据 集成 方案 。 


不 管 最 终 你 选择 了 哪 一 种 数据 集成 方案 ， 都 需要 保证 所 有 消息 能 够 在 各 种 恶劣 条 
件 下 完成 传递 。 我 们 相信 ， 在 与 Kafka 的 可 靠 性 特性 结合 起 来 之 后 ，Connect 具 
有 了 极 高 的 可 靠 性 。 不 过 ， 我 们 仍然 需要 对 它们 进行 严格 的 测试 ， 以 确保 你 选择 
的 数据 集成 系统 能 够 在 发 生 进程 停止、 机 器 表 误 、 网 络 延迟 和 高 负载 的 情况 下 不 
丢失 消息 。 上 毕竟， 数据 集成 系统 应 该 只 做 一 件 事 情 ， 那 就 是 传递 数据 。 


可 靠 性 是 数据 集成 系统 唯一 一 个 重要 的 需求 。 在 选择 数据 系统 时 ， 首 先 要 明确 需 
求 (可 以 参考 7.1 节 ) ， 并 确保 所 选择 的 系统 能 够 满足 这 些 需 求 。 除 此 之 外 ， 还 
要 很 好 地 了 解数 据 集成 方案 ， 确 保 知 道 怎 么 使 用 它们 来 满足 需求 。 虽 然 Kafka 文 
ee 
菲 性 。 


第 8 章 ”路 集群 数据 镜像 


本 书 的 大 部 分 内 容 都 是 在 讨论 单个 Kafka 集群 的 配置 、 维 护 和 使 用 。 不 过 ， 在 某 
些 场景 的 架构 里 ， 可 能 需要 用 到 多 个 集群 。 


有 时 候 ， 这 些 集群 相互 独立 ， 属 于 不 同 的 部 门 ， 或 者 有 不 同 的 用 途 ， 那 么 就 没有 
必要 在 集群 间 复 制 数据 。 有 时 候 ， 因 为 对 SLA 有 不 同 的 要 求 ， 或 者 因为 工作 负载 
的 不 同 ， 很 难 通 过 调整 单个 集群 来 满足 所 有 的 需求 。 还 有 一 些 时 候 ， 对 安全 有 各 
种 不 同 的 要 求 。 这 些 问题 其 实 很 容易 解决 ， 就 是 分 别 为 它们 创建 不 同 的 集群 一 一 
管理 多 个 集群 本 质 上 束 是 重复 多 次 运行 单独 的 集群 


在 某 些 情况 下 ， 不 同 的 集群 之 间 相 互 依赖 ， 管 理 员 需要 不 停 地 在 集群 间 复 制 数 
据 。 大 部 分 数据 库 都 支持 复制 (replication) ， 也 就 是 持续 地 在 数据 库 服 务 器 之 
间 复 制 数 据 。 不 过 ， 因 为 前 面 已 经 使 用 过 “复制 ?这 个 词 来 描述 在 同一 个 集群 的 节 
点 间 移 动 数 据 ， 所 以 我 们 把 集群 间 的 数据 复制 叫 作 镜像 (mirroring) 。Kafka 内 
置 的 跨 集群 复制 工具 叫 作 MirrorMaker 。 


在 这 一 章 ， 我 们 将 讨论 跨 集群 的 数据 镜像 ， 它 们 既 可 以 镜像 所 有 数据 ， 也 可 以 镜 
像 部 分 数据 。 我 们 先 从 一 些 常 见 的 跨 集群 镜像 场景 开始 ， 然 后 介绍 这 些 场景 所 使 
用 的 架构 模式 ， 以 及 这 些 架 构 模 式 各 有 自 的 优 缺 点 。 接 下 来 我 们 会 介绍 
MirrorMaker 以 及 如 何 使 用 它 ， 然 后 说 明 在 进行 部 署 和 性 能 调 优 时 需要 注意 的 
些 事项 。 最 后 我 们 会 对 MirrorMaker 的 一 些 奉 代 方 案 进行 比较 。 


8.1 ” 足 集 群 镜像 的 使 用 场景 
下 面 列 出 了 几 个 使 用 跨 集群 镜像 的 场景 。 
区 域 集群 和 中 心 集群 


有 了 时候， 一 个 公司 会 有 多 个 数据 中 心 ， 它 们 分 布 在 不 同 的 地 理 区 域 、 不 同 的 
城市 或 不 同 的 大 洲 。 这 些 数据 中 心 都 有 自己 的 Kafka 集群 。 有 些 应 用 程序 只 需要 
与 本 地 的 Kafka 集群 通信 ， 而 有 些 则 需要 访问 多 个 数据 中 心 的 数据 (否则 束 没 必 
要 考虑 跨 数 据 中 心 的 复制 方案 了 ) 。 有 很 多 情况 需要 跨 数 据 中 心 ， 比 如 一 个 公司 
根据 供需 情况 修改 商品 价格 就 是 一 个 典型 的 场景 。 该 公司 在 每 个 城市 都 有 一 个 数 
据 中 心 ， 它 们 收集 所 在 城市 的 供需 信息 ， 并 调整 商品 价格 。 这 些 信息 将 会 被 镜像 
到 一 个 中 心 集群 上 ， 业 务 分 析 员 就 可 以 在 上 面 生 成 整个 公司 的 收益 报告 。 


元 余 (DR) 

一 个 Kafka 集群 足以 支撑 所 有 的 应 用 程序 ， 不 过 你 可 能 会 担心 集群 因 某 些 原 
因 变 得 不 可 用 ， 所 以 你 希望 有 第 二 个 Kafka 集群 ， 它 与 第 一 个 集群 有 相同 的 数 
据 ， 如 果 发 生 了 紧急 情况 ， 可 以 将 应 用 程序 重 定 向 到 第 二 个 集群 上 。 
云 迁 移 

现今 有 很 多 公司 将 它们 的 业务 同时 部 署 在 本 地 数据 中 心 和 云端 。 为 了 实现 元 


余 ， 应 用 程序 通常 会 运行 在 云 供 应 商 的 多 个 服务 区 域 里 ， 或 者 使 用 多 个 云 服 务 。 
本 地 和 每 个 云 服 务 区 域 都 会 有 一 个 Kafka 集群 。 本 地 数据 中 心 和 云 服务 区 域 里 的 


Ud 


应 用 程序 使 用 自己 的 Kafka 集群 ， 当 然 也 会 在 数据 中 心 之 间 传 输 数 据 。 例 如 ， 如 
果 云 端 部 署 了 一 个 新 的 应 用 程序 ， 它 需要 访问 本 地 的 数据 。 本 地 的 应 用 程序 负责 
更 新 数据 ， 并 把 它们 保存 在 本 地 的 数据 库 里 。 我 们 可 以 使 用 Connect 捕获 这 些 数 
据 库 变更 ， 并 把 它们 保存 到 本 地 的 Kafka 集群 里 ， 然 后 再 镜像 到 云端 的 Kafka 集 
人 心 的 流量 成 本 ， 同 时 也 有 助 于 改进 流量 的 监管 和 
安全 : 


8.2 ”多 集群 架构 


现在 ， 我 们 已 经 知道 有 哪些 场景 需要 用 到 多 个 Kafka 集群 ， 接 下 来 将 介绍 几 种 常 
见 的 架构 模式 。 我 们 之 前 已 E 成 功 地 基 于 这 些 模式 实现 了 上 述 的 几 种 场景 。 在 讲 
解 这 些 架 构 模 式 之 前 ， 驳 简单 地 介绍 一 下 有 关 跨 数据 中 心 通信 的 现实 情况 。 我 们 
即将 讨论 的 方案 都 是 以 特定 的 网 络 条 件 为 前 前 提 的 。 


8.2.1 ” 跨 数 据 中 心 通信 的 一 些 现实 情况 
以 下 是 在 进行 跨 数 据 中心 通 信 时 需要 考 虚 的 一 些 问题 。 
高 延迟 


Kafka 集群 之 间 的 通信 延迟 随 着 集群 间距 离 的 增长 而 增加 。 虽 然 光 缆 的 速度 
征 恒 定 的 ， 但 集群 间 的 网 络 跳 转 所 带 来 的 缓冲 和 堵塞 会 增加 通信 延迟 。 


有 限 的 带宽 


单个 数据 中 心 的 广域网 带宽 远 比 我 们 想象 的 要 低 得 多 ， 而 且 可 用 的 带宽 时 刻 
在 发 生变 化 。 男 外 ， 高 延迟 让 如 何 利 用 这 些 带 宽 变 得 更 加 困难 。 


高 成 本 


不 管 你 是 在 本 地 还 是 在 云端 运行 Kafka， 和 集群 之 间 的 通信 都 需要 更 高 的 成 
本 。 部 分 原因 是 因为 带宽 有 限 ， 而 增加 带宽 是 很 昂贵 的 ， 当 然 ， 这 个 与 供应 商 制 
定 的 在 数据 中 心 、 区 域 和 云端 之 间 传 输 数 据 的 收费 策略 也 有 关系 。 


Kafka 服务 器 和 客户 端 是 按照 单个 数据 中 心 进行 设计 、 开 发 、 测 试 和 调 优 的 。 我 
们 假设 服务 器 和 客户 端 之 间 具 有 很 低 的 延迟 和 很 高 的 带宽 ， 在 使 用 默认 的 超时 时 
间 和 缓冲 区 大 小 时 也 是 基于 这 个 前 提 。 因 此 ， 我 们 不 建议 跨 多 个 数据 中 心安 装 
Kafka 服务 器 (不 过 稍 后 会 介绍 一 些 例外 情况 ) 。 


大 多 数 情 况 下 ， 我 们 要 避免 向 远程 的 数据 中 心 生 成 数据 ， 但 如 果 这 么 做 了 ， 那 么 
就 要 忍受 高 延迟 ， 并 且 需 要 通过 增加 重 试 次 数 (LinkedIn 曾经 为 跨 集群 镜像 设置 
了 32 000 多 次 重 试 次 数 ) 和 增 大 缓冲 区 来 解决 潜在 的 网 络 分 区 问题 (生产 者 和 服 
务 器 之 间 临 时 断 开 连接 ) 。 


i 
en 


如 采 有 了 跨 集群 复制 的 需求 ， 同 时 又 禁用 了 从 broker 到 broker 之 间 的 通信 以 及 从 
生产 者 到 broker 之 间 的 通信 ， 那 么 我 们 必须 允许 从 broker 到 消费 者 之 间 的 通信 。 
事实 上 ， 这 是 最 安全 的 跨 集群 通信 方式 。 在 发 生 网 络 分 区 时 ， 消 费 者 无 法 从 
Kafka 读 取 数据 ， 数 据 会 驻 留 在 Kafka 里 ， 直 到 通信 恢复 正常 。 因 此 ， 网 络 分 区 
不 会 造成 任何 数据 丢失 。 不 过 ， 因 为 带宽 有 限 ， 如 采 一 个 数据 中 心 的 多 个 应 用 程 
字 需 要 从 男 一 个 数据 中 心 的 Kafka 服务 器 上 读 取 数据 ， 我 们 倾向 于 为 每 一 个 数据 
' 心 安装 一 个 Kafka 集群 ， 并 在 这 些 集群 间 复 制 数据 ， 而 不 是 让 不 同 的 应 用 程序 
通过 广域网 访问 数据 。 


人 些 架构 
忆 刘 。 


。 每 个 数据 中 心 至 少 需 要 一 个 集群 。 

I 
需要 重 试 ) 。 

人 


8.2.2 Hub 和 Spoke 架 构 


这 种 架构 适用 于 一 个 中 心 Kafka 集群 对 应 多 个 本 地 Kafka 集群 的 情况 ， 如 图 8-1 
Has 


中 央 度 量 
指标 Kafka 集 群 


图 8-1: 一 个 中 心 Kafka 集群 对 应 多 个 本 地 Kafka 集群 


这 种 架构 有 一 个 简单 的 变种 ， 如 采 只 有 一 个 本 地 集群 ， 那 么 整个 以 构 里 融 只 剩 下 
两 个 集群 :一 个 首领 和 一 个 跟随 者 ， 如 图 8-2 所 示 。 


关键 的 生产 


环境 Kafka 人 集群 


图 8-2: 一 个 首领 对 应 一 个 跟随 者 
当 消 费 者 需要 访问 的 数据 集 分 散在 多 个 数据 中 心 时 ， 


个 数据 中 心 的 应 用 程 ) 


构 ， 只 不 过 它们 无 法 
这 种 架构 的 好 处 在 于 ， 


非 关 键 的 
报表 Kafka 集 群 


可 以 使 用 这 种 架构 。 如 果 每 


访问 到 全 局 的 数据 集 。 


亡 只 处 理 自 己 所 在 数据 中 心 的 数据 ， 那 么 也 可 以 使 用 这 种 架 


数据 只 会 在 本 地 的 数据 中 心 生 成 ， 而 且 每 个 数据 中 心 的 数 


据 只 会 被 镜像 到 中 央 数 


据 中 心 一 次 。 只 处 理 单个 数据 


部 署 在 本 地 数据 中 心 


在 中 央 数 据 中 心里 。 
数据 ， 所 以 这 种 架构 


不 过 这 种 架构 的 简单 
一 个 数据 中 心 的 数据 。 


心 数 据 的 应 用 程序 可 以 被 


里 ， 而 需要 处 理 多 个 数据 中 心 数 据 的 应 用 程 | SR 


因为 数据 复制 是 单 癌 的， 而 且 消 
易于 部 署 、 配 置 和 监控 。 


费 者 总 是 从 同一 个 集群 读 取 


性 也 导致 了 一 些 不 足 。 一 个 数据 
为 了 更 好 地 理解 这 种 局 限 性 ， 


心 的 应 用 程序 无 法 访问 另 
我 们 举 一 个 例子 来 说 明 。 


假设 有 一 家 银行 ， 它 在 不 同 的 城市 有 多 家 分 行 。 每 个 城市 的 Kafka 集群 上 保存 了 


用 户 的 信息 和 账号 历 


史 数 据 。 我 们 把 各 个 城市 的 数据 


复制 到 一 个 中 心 集群 上 ， 这 


酝 银 行 束 可 以 利用 这 些 数据 进行 业务 分 析 。 在 用 户 访问 银行 网 癌 或 去 他 们 所 属 的 


分 行 办 理 业 务 时 ， 他 


们 的 请 求 被 路 由 到 本 地 集群 上 ， 


同时 从 本 地 集群 读 取 数据 。 


很 设 一 个 用 户 去 另 一 个 城市 的 }) 行 办 理 业务 ， 因 为 他 的 信息 不 在 这 个 城市 ， 所 以 
这 个 分 行 需要 与 远程 的 集群 发 生 交 互 (不 建议 这 么 做 ) ， 否 则 根本 没有 办 法 访问 


到 这 个 用 户 的 信息 ( 


很 槛 熔 ) 。 因 此 ， 这 种 架构 模式 


因为 区 域 数据 中 心 之 


在 采用 这 种 架构 时 ， 
镜像 进程 会 读 取 每 一 
如 采 多 个 数据 中 心 出 
的 单个 主题 上 ， 也 可 


8.2.3 ” 双 活 架构 


间 的 数据 是 完全 独立 的 。 


在 数据 访问 方面 有 所 局 限 ， 


每 个 区 域 数据 中 心 的 数据 都 需要 
个 区 域 数据 中 心 的 数据 ， 并 将 它 


被 镜像 到 中 央 数 据 中 心 上 。 
们 重新 生成 到 中 心 集群 上 。 


现 了 重 名 的 主题 ， 那 么 这 些 主 题 
以 被 写 到 多 个 主题 上 。 


当 有 两 个 或 多 个 数据 


时 ， 可 以 使 用 双 活 (Active-Active) 多 


的 数据 可 以 被 写 到 中 心 集群 


心 需要 共 至 数 据 并 且 每 个 数据 


' 心 都 可 以 生产 和 读 取 数据 


架构 ， 如 图 8-3 所 示 。 


旧金山 Kafka 集 群 上 “| 休斯顿 Kafka 集 群 


所 有 
应 用 


西海 尾 用 户 
图 8-3: 两 个 数据 中 心 需 要 共享 数据 


这 种 架构 的 主要 好 处 在 于 ， 


而 且 不 会 因为 数据 的 可 用 性 i 
方面 作出 牺牲 。 第 二 个 好 处 是 见 余 和 弹 


它 可 以 为 就 


一 旦 一 个 数据 中 心 发 生 失 效 ， 就 可 以 把 
问 完 全 是 网 络 的 重 定向 ， 因 此 是 一 种 最 简单 、 最 透明 的 失效 备 援 方案 。 


这 种 架构 的 主要 问题 在 于 ， 


如 何在 进行 多 


A 


中 南部 用 户 


近 的 用 户 提 供 服务 ， 具 有 性 能 上 的 优势 ， 


可 题 (在 Hub 和 Spoke 架构 中 就 有 这 种 问题 ) 在 功能 


隆 。 因 为 每 个 数据 中 心 具 备 完 整 的 功能 
用 户 重 定 向 到 男 一 个 数据 中 心 。 这 种 重 定 


个 位 置 的 数据 异步 读 取 和 异步 更 新 时 避 


免 冲突 。 比如 镜像 技术 方面 的 问题 一 -如何 确 保 同一 个 数据 不 会 被 天 上 境地 来 加 
镜像 ? 而 数据 一 致 性 方面 的 问题 则 更 为 关键 。 下 面 是 可 能 遇 到 的 问题 。 


。 如 果 用 户 向 一 个 数据 
在 用 户 读 取 数据 之 前 ， 


心 发 送 数据 ， 


他 发 送 的 数 


同时 从 第 二 个 数据 中 心 读 取 数 据 ， 那 么 
据 有 可 能 还 没有 被 镜像 到 第 二 个 数据 中 


心 。 对 于 用 户 来 说 ， 这 就 好 比 把 一 本 书 加 入 到 购物 车 ， 但 是 在 他 点 开 购 物 车 


时 ， 书 却 不 在 里 面 。 因 此 ， 在 使 用 这 种 架构 时 ， 开 发 人 员 经 常会 将 用 


户 “ 粕 ?在 同一 个 数据 


。 一 个 用 户 在 一 个 数据 


心 上 ， 以 确保 用 户 在 大 多 数 情况 下 使 用 的 是 同一 个 数 
据 中 心 的 数据 (除非 他 们 从 远程 进行 连接 或 者 数据 中 心 不 可 用 ) 。 


' 心 订购 了 书 


A， 而 第 二 个 数据 中 心 几乎 在 同一 时 间 收 


到 了 该 用 户 订购 书 B 的 订单 ， 在 经 过 数据 镜像 之 后 ， 每 个 数据 中 心 都 包含 了 
这 两 个 事件 。 两 个 数据 中 心 的 应 用 


否 应 该 从 中 挑选 一 个 作为 “正确 ”的 事件 ? 如 有 果 是 这 样 ， 我 们 需要 在 两 个 数据 


程序 需要 知道 如 何 处 理 这 种 情况 。 我 们 


车 元 


心 之 间 定 义 一 致 的 规则 ， 用 于 确 
看 成 是 正确 的 事件 ， 将 两 本 书 都 发 给 用 户 ， 然 后 设立 一 个 部 门 专门 来 处 理 退 
货 问题 ? Amazon 避 ® 是 使 用 这 种 方式 来 处 理 冲突 的 ， 但 对 于 股票 交易 部 门 来 


定 哪个 事件 才 是 正确 的 。 又 或 者 把 两 个 都 


说 ， 这 种 方案 是 行 不 通 的 。 如 何 最 小 化 冲突 以 及 如 何 处 理 冲 突 要 视 具 体 情况 
而 定 。 总 之 要 记 住 ， 如 果 使 用 了 这 种 架构 ， 必 然 会 遇 到 冲突 问题 ， 还 要 想 办 


法 解决 它们 。 


如 采 能 够 很 好 地 处 理 在 从 多 个 位 置 异步 读 取 数据 和 异步 更 新 数据 时 发 生 的 冲突 问 
题 ， 那 么 我 们 强烈 建议 使 用 这 种 架构 。 


这 种 架构 是 我 们 所 知道 的 最 具 伸缩 性 、 弹 


人 


灵活 性 和 成 本 优势 的 解决 方案 。 所 以 ， 它 值得 我 们 投入 精力 去 寻找 一 些 办 


大 


双 } 
/ 旋 


全 少 20 个 镜像 进程 ， 


余 


另外 ， 我 们 还 要 避免 


人 


要 


用 于 避免 循环 复制 、 


突 时 解决 冲突 。 
活 镜 像 ( 特 


别 是 


相同 用 户 的 请 求 粘 在 同一 个 数据 


当 数 据 中 心 的 


之 间 都 需 


逻辑 主题 ”， 


还 有 可 能 


循环 镜像 ， 


我 们 可 以 在 每 个 数据 


从 远程 数据 


心 复制 同名 的 主题 。 


据 中 心 为 其 创建 <SF.users” 主 题 ， 


数量 超过 两 个 ) 


要 进 行 镜 像 ， 而 且 是 双向 的 。 如 采 有 5 个 数据 


心 ， 以 及 在 发 生 冲 


的 挑战 之 处 在 于 ， 
1 ， 


每 两 个 数据 中 
那么 就 需要 维护 


达到 40 个 


， 因 为 为 了 高 可 用 ， 每 个 进程 都 需要 元 


相同 的 事件 不 能 
] 儿 信 
例如 ， 对 了 


里 为 它 创建 一 个 单独 的 主题 ， 


能 无 止境 地 来 回 镜 像 。 对 了 
并 确保 不 
逻辑 主题 “users”， 我 们 在 一 个 数 


FS 


在 男 一 个 数据 


心 为 其 创建 <VYC users" 主 是 8 


镜像 进程 将 SF 的 “SFusers” 镑 像 到 NYC， 同 时 将 NYC 的 “NYC.users” 镜 像 到 


SF。 这 样 一 来 ， 
心 同时 拥有 了 SF.users 和 NYC.users 这 两 个 主题 ， 


有 
元 


于 


相同 的 用 户 数据 。 
订阅 主题 。 


甲 


每 一 个 事件 只 会 被 镜像 一 次 ， 不 过 在 经 过 镜像 之 后 ， 每 个 数据 中 


也 就 是 说 ， 每 个 数据 中 心 都 拥 


消费 者 如 果 要 读 取 所 有 的 用 户 数据 ， 


就 需要 以 “*.users” 的 方 


我 人 ] 册 可 以 把 这 种 方式 理解 为 数据 
NYC 和 SF 就 是 命名 空间 。 


心 的 命名 空间 ， 比 如 在 这 个 例 


在 不 久 的 将 来 ，Kafka 将 会 增加 记录 头 部 信息 。 


的 
不 
来 
要 


信息 ， 


我 们 可 以 使 用 这 些 信息 来 避免 


同 数据 
实现 这 一 
做 一 


8.2.4” 主 备 架构 


有 


了 两 个 集群 ， 它们 包含 
和 


震 ， 


(A 


时 候 ， 使 用 多 


个 数据 中 心 ， 


第 二 


特性 ， 并 用 它 在 数据 
些 额 外 的 工作 ， 因 为 现成 的 镜像 工具 并 不 文 持 


个 集群 只 


循环 镜像 ， 也 可 以 用 它们 来 单独 处 理 来 目 
心 的 数据 。 当 然 ， 你 也 可 以 通过 使 用 结构 化 的 数据 格式 (比如 Avro) 
添加 标签 和 头 部 信息 。 


头 部 信息 /人心 士 心 


里 可 以 包含 源 数据 


碟 
To 


不 过 在 进行 镜像 时 ， 


\ 是 为 了 达到 灾 备 的 目的 。 你 可 能 在 同一 个 数据 


就 可 以 使 用 第 
比如 整体 业务 务 运行 在 加 向 尼 下 州 的 数 提 


平常 只 使 用 其 


月 定义 的 头 部 信息 格式 。 


心安 装 


的 一 个 。 当 提供 服务 的 集群 


集群 。 又 或 者 你 可 能 希望 它们 具备 地 理 位 置 弹 


' 心 上 ,但 需要 在 德 殉 院 斯 州 有 第 


I 


二 个 数据 


心平 常 不 怎么 用 ， 但 


第 二 个 数据 


集群 发 挥 作 用 。 


但 


还 是 要 做 好 充分 的 准备 。 


了 上 Eb 派 上 用 
这 种 需求 一 般 


日 


日 


是 一 旦 第 一 个 数据 中 心 发 生地 


场 。 德 克 院 斯 刀 


”) 复制 ， 在 紧急 情况 下 ， 
是 合 规 性 的 ， 业务 个 一 
主 备 (Active-Standby) 性 


的 数据 中 心 可 能 拥有 所 有 应 用 程 

a 让 第 二 
会 将 其 纳入 规划 范畴 ， 

架构 示意 图 如 加 8-4 所 示 。 


生产 环境 的 
Kafka 集 群 


所 有 用 户 


图 8-4: 主 备 架 构 示 意图 


这 种 架构 的 好 处 是 易于 实现 ， 而 且 可 以 被 用 于 任何 一 种 场景 。 2 可 以 安装 第 二 个 
集群 ， 然 后 使 用 镜像 进程 将 第 一 个 集群 的 数据 完整 镜像 到 第 二 个 集群 上 ， 不 需要 
担心 数据 的 访问 和 冲突 问题 ， 也 不 需要 担心 它 会 带 来 像 其 他 架 更 构 那样 的 复杂 人 


这 种 架构 的 不 足 在 于 ， 它 浪费 了 一 个 集群 。Kafka 集群 间 的 失效 备 援 比 我 们 想象 
的 要 难得 多 。 从 目前 的 情况 来 看 ， 要 实现 不 丢失 数据 或 无 重复 数据 的 Kafka 集群 
失效 备 援 是 不 可 能 的 。 我 们 只 能 尽量 减少 这 些 问题 的 发 生 ， 但 无 法 完全 避免 。 


让 一 个 集群 什么 事 也 不 做 ， 只 是 等 待 灾 难 的 发 生 ， 这 明显 就 是 对 资源 的 浪费 。 

为 灾难 是 (或 者 说 应 该 是 ) 很 少见 的 ， 所 以 在 大 部 分 时 间 里 实生 人 和 也 
不 做 。 有 些 组 织 尝试 减 小 灾 备 集群 的 规模 ， 让 它 远 小 于 生产 环境 的 集群 规模 。 

种 做 法 具有 一 定 的 风险 ， 因 为 你 无 法 保证 这 种 小 规模 的 集群 和 g 鸳 在 紧 仿 情况 下 发 
挥 应 有 的 作用 。 有 些 组 织 则 倾向 于 让 灾 备 集群 在 平常 也 能 发 挥 作用 ， 他 们 把 一 些 
只 读 的 工作 负载 定向 到 灾 备 集群 上 ， 也 就 是 说 ， 实 际 上 运行 的 是 Hub 和 Spoke 架 
构 的 一 个 简化 版 本 ， 因 为 架构 里 只 有 一 个 Spoke。 


那么 问题 来 了 : 如 何 实现 Kafka 集群 的 失效 备 援 ? 


首先 ， 不 管 选 择 哪 一 种 失效 备 援 方 案 ，SRE (网 站 可 靠 性 工程 ， 团 队 都 必须 随时 
待命 。 今 天 能 够 正常 运行 的 计划 ， 在 系 统 升级 之 后 可 能 就 无 法 正常 工作 ， 又 或 者 
已 有 的 工具 无 法 满足 新 场景 的 需求 。 每 季度 进行 次 失效 备 援 是 最 低 限 度 的 要 

求 ， 一 个 高 效 的 SRE 团队 会 更 频繁 地 进行 失效 备 援 。Chaos Monkey 是 Netflix 提 
人 的 服务 ， 它 随机 地 制造 灾难 ， 有 可 能 让 任何 一 天 都 成 为 失效 备 援 


并 


现在 ， 让 我 们 来 看 看 失效 备 援 都 包括 哪些 内 容 。 
01. 数据 丢失 和 不 一 致 性 


02. 


因为 Kafka 的 各 种 镜像 解决 万 案 都 是 异步 的 8.2.5 站 将 介绍 一 种 同步 的 方 
案 ) ， 所 以 灾 备 集群 总 是 无 法 及 时 地 获取 主 集群 的 最 新 数据 。 我 们 要 时 刻 注 
音 灾 备 集群 与 主 集群 之 间 拉 开 了 多 少 距离 ， 并 保证 不 要 出 现 太 大 的 差距 。 不 
过 ,一 个 繁忙 的 系统 可 以 允许 灾 备 集群 与 主 集 群 之 间 有 几 百 个 甚至 几 千 个 消 
息 的 延迟 。 如 果 你 的 Kafka 集群 每 秒 钟 可 以 处 理 100 万 个 消息 ， 而 在 主 集群 
和 灾 备 集群 之 间 有 5ms 的 延迟 ， 那 么 在 最 好 的 情况 下 ， 灾 备 集群 每 秒 钟 会 有 
5000 个 消息 的 延迟 。 所 以 ， 个 在 计划 内 的 失效 备 授 会 造成 数据 的 壬 失 。 。 在 进 
行 计 划 内 的 失效 备 援 时 ， 可 以 先 停止 主 集群 ， 等 待 镜像 进程 将 剩余 的 数据 镜 
像 完 毕 ， 然 后 切换 到 灾 备 集群 ， 字 科 以 季报 在 发 生 非 计划 内 的 
失效 备 援 时 ， 可 能 会 丢失 数 千 个 消息 。 目 前 Kafka 还 不 支持 事务 ， 也 就 是 
说 ， 如 果 多 个 主题 的 数据 (比如 销售 数据 和 产品 数据 ) 之 间 有 相关 性 ， 那么 
在 失效 备 援 过 程 中 ， 一 些 数据 可 以 及 时 到 达 灾 备 集 群 ， 而 有 些 则 不 能 。 和 那么 
人 
产品 数据 。 


~ 


失效 备 援 之 后 的 起 始 偏 移 量 
在 切换 到 灾 备 集群 的 过 程 中 ， 最 具 挑 战 性 的 事情 莫 过 了 
该 从 什么 地 方 开始 继续 处 理 数据 。 下 面 将 介绍 一 些 常用 的 方 有 些 很 


简单 ， 但 有 可 能 会 六 成 额外 的 数据 函 失 或 效 据 重 复 ; 有 上 出 比 枕 复杂 但 可 
以 最 小 化 丢失 数据 和 出 现 重复 数据 的 可 能 性 


偏 移 量 自动 重 置 


Kafka 消费 者 有 一 个 配置 选项 ， 用 于 指定 在 没有 上 一 个 提交 偏 移 量 的 情 
况 下 该 作 何 处 理 。 消 费 者 要 么 从 分 区 的 起 始 位 置 开始 读 取 数据 ， 要 么 从 分 区 
的 末尾 开始 读 取 数 据 。 如 果 使 用 的 是 旧版 本 的 消费 者 ( 偏 移 量 保存 在 
Zookeeper 上 ) ， 而 ee 这 些 偏 移 量 没有 被 纳入 灾 备 计划 ， 那 
么 就 需要 从 上 述 两 个 选项 中 选择 一 个 。 要 么 从 头 开 始 读 取 数据 ， 并 处 理 大 量 
的 重复 数据 ， 要 么 直接 跳 到 末尾 ， 放弃 二 危 狼 握 ”条 这 内 是 少量 的 钴 据 信 ， 
如 果 重 复 处 理 数据 或 者 丢失 一 些 数 据 不 会 造成 太 大 问题 ， 那 么 重 置 偏 移 量 是 
最 为 简单 的 方案 。 不 过 直接 从 主题 的 末尾 开始 读 取 数据 这 种 方式 或 许 更 为 常 
泌 。 


复制 偏 移 量 主题 


如 果 使 用 新 的 Kafka 消费 者 (0.9 或 以 上 版 本 ) ， 消 费 者 会 把 偏 移 量 提 
交 到 一 个 叫 作 __consumer_offsets 的 主题 上 。 如 果 对 这 个 主题 进行 了 镜像 ， 
那么 当 消 费 者 开始 读 取 灾 备 集群 的 数据 时 ， 扬 们 束 可 以 从 原先 的 仿 移 量 位 置 
开始 处 理 数据 。 这 个 看 起 来 很 简单 ， 不 过 仍然 有 很 多 需要 注意 的 事项 。 


首先 ， 我 们 并 不 能 保证 主 集群 里 的 偏 移 量 与 灾 备 集群 里 的 偏 移 量 是 完全 匹配 
的 。 假 没 主 集 千里 的 数据 只 保留 3 天 ， 而 你 在 一 个 星期 之 后 才 开 始 镜像 ， 那 
么 在 这 种 情况 下 ， 主 集群 里 第 一 个 可 用 的 偏 移 量 可 能 是 57 000 000 (前 4 天 


的 旧 数 据 已 经 被 删除 了 ) ， 而 灾 备 集群 里 的 第 一 个 偏 移 量 是 0， 那么 当 消 费 
和 J 003 处 (因为 这 是 它 要 读 取 的 下 一 个 数据 ) 开始 读 取 数 据 
上 时， 就 会 失败 。 


其 次 ， 驳 算 在 主题 创建 之 后 立即 开始 镜像 ， 让 主 集群 和 灾 备 集群 的 主题 侦 移 
量 都 从 0 开始 ， 生 产 者 在 后 续 进 行 重 试 时 仍然 会 造成 偏 移 量 的 偏离 。 人 简 而 言 
之 ,目前 的 Kafka 锐 像 解决 方案 无 法 为 主 集群 和 灾 备 集群 保留 仿 移 量 。 


最 后 ， 束 算 偏 移 量 被 完美 地 保留 下 来 ， 因 为 主 集群 和 灾 备 集群 之 间 的 延迟 以 
及 Kafka 缺乏 对 事务 的 支持 ， 消 费 者 提交 的 偏 移 量 有 可 能 会 在 记录 之 前 或 者 
记录 之 后 到 达 。 在 发 生 失 效 备 援 之 后 ， 消 费 者 可 能 会 发 现 偏 移 量 与 记录 不 匹 
配 ， 或 者 灾 备 集群 里 最 新 的 偏 移 量 比 主 集群 里 的 最 新 偏 移 量 小 。 如 图 8-5 所 


生产 环境 的 Kafka 集 群 生产 环境 的 Kafka 集 群 
主题 A, 分 区 0 主题 A, 分 区 0 


主题 A, 分 区 0 主题 A, 分 区 0 
群 组 Cl, 主 | 群 组 Cl, 主 | 群 组 Cl, 主 群 组 Cl, 主 | 群 组 Cl, 主 
题 A, 分 区 0, | 题 B, 分 区 0, | 题 A, 分 区 0， 题 A, 分 区 0, | 题 B, 分 区 0， 
偏 移 量 23 “| 偏 移 量 6 | 偏 移 量 26 偏 移 量 23 | 偏 移 量 6 


图 8-5: 灾 备 集群 偏 移 量 与 主 集群 的 最 新 偏 移 量 不 匹配 的 示例 
在 这 些 情况 下 ， 我 们 需要 接受 一 定 程度 的 重复 数据 。 如 采 灾 备 集群 最 新 的 偏 


移 量 比 主 集 群 的 最 新 偏 移 量 小 ， 或 者 因为 生产 者 进行 重 试 导致 灾 备 集群 的 记 
录 偏 移 量 比 主 集群 的 记录 偏 移 量 大 ， 都 会 造成 数据 重复 。 你 还 需要 知道 该 怎 
么 处 理 最 新 偏 移 量 与 记录 不 匹配 的 问题 ， 此 时 要 从 主题 的 起 始 位 置 开 始 读 取 
还 是 从 末尾 开始 读 取 ? 


复制 偏 移 量 主题 的 方式 可 以 用 于 减少 数据 重复 或 数据 丢失 ， 而 且 实 现 起 来 很 
简单 ， 只 要 及 时 地 从 0 开始 镜像 数据 ， 并 持续 地 镜像 偏 移 量 主 题 束 可 以 了 。 
不 过 一 定 要 注意 上 壕 的 几 个 问题 。 


基于 时 间 的 失效 备 援 
如 果 使 用 的 是 新 版 本 (0.10.0 及 以 上 版 本 ) 的 Kafka 消费 者 ， 每 个 消息 


里 都 包含 了 一 个 时 间 惟 ， 这 个 时 间 戳 指明 了 消息 发 送 给 Kafka 的 时 间 。 在 更 
新 版 本 的 Kafka (0.10.1.0 及 以 上 版 本 ) 里 ，broker 提供 了 一 个 索引 和 一 个 


量 。 


于 根据 时 间 戳 查找 偶 移 


假设 你 正在 进行 失效 备 援 ， 并 且 


用 了 量 
知道 失效 事件 发 生 在 安 展 4:05， 那么 就 可 以 让 消费 者 从 4:03 的 位 置 开始 处 理 


是 ， 


数据 。 在 两 分 钟 的 时 间 差 里 
方案 要 好 得 多 ， 而 且 也 很 容易 向 ] 


5 


会 存在 一 些 重复 数据 ， 人 


牵 展 


~ 


区 始 处 理 数据 ,这样 的 解释 要 比 "我 们 从 一 个 不 知道 是 不 是 最 新 的 位 置 开始 处 


理 数 据 ” 要 好 得 多 。 所 以 ， 这 是 一 


种 更 好 的 折 中 。 问 题 是 ， 如 何 让 消费 者 从 


凌晨 4:03 的 位 置 开始 处 理 数 据 呢 ? 


可 以 让 应 用 程序 来 完成 这 件 事情 


站 定 从 什么 时 间 点 开始 处 理 数据 。 


* 我 们 为 用 户 提供 一 个 配置 参数 ， 用 了 
RE 定 了 时 间 ， 应 用 程序 可 以 通过 


新 的 API 获取 指定 时 间 的 偏 移 量 ,，: 


然后 从 这 个 位 置 开始 处 理 数 据 。 


如 果 应 用 程序 在 一 开始 就 是 这 么 设计 的 ， 那 么 使 用 这 种 方案 束 再 好 不 过 


了 。 但 
并 不 


再 启动 它们 。 


该 方案 适用 了 
自己 开发 工具 的 人 。 


偏 移 量 外 部 映射 


我 们 知道 ， 镜 像 偏 移 量 主题 的 一 个 最 大 问题 在 
会 发 生 偏差 。 因 此 ， 一 些 组 织 选 择 使 用 外 部 数据 存储 (比如 Apache 


移 量 


ee 开始 不 是 这 么 设计 的 呢 ? 开发 一 个 这 样 的 4 


。 我们 和 希望 在 未 来 的 Kafka 版 本 
2 在 运行 这 个 工具 时 ， 应 该 先 关闭 消费 者 群 组 ， 


新 的 API 获取 相应 的 偏 移 量 ， 
里 添加 这 样 的 工具 ， 不 过 你 也 可 以 
在 工具 完成 任务 之 后 


那些 使 用 了 新 版 Kafka、 对 失效 备 援 有 明确 要 求 并 且 喜 欢 


F 主 集群 和 灾 备 集群 的 偏 


Cassandra) 来 保存 集群 之 间 的 偏 移 量 映 射 。 他 们 


自己 开发 镜像 工具 ， 在 一 个 


数据 被 镜像 到 灾 备 集群 之 


后 ， 


主 集群 和 灾 备 集群 的 偏 移 上 


量 被 保存 到 外 部 数据 


存储 上 。 或 者 只 有 当 两 边 的 偏 移 量 


差 值 发 生变 化 时 ， 才 保存 这 两 个 偏 移 量 。 


比如 ， 


主 集群 的 偏 移 量 495 被 映射 至 


| 灾 备 集群 的 偏 移 量 500， 在 外 部 存储 上 


记录 为 (495,500) 。 如 果 之 后 


因为 消息 重复 导致 差 值 发 生变 化 ， 偏 移 量 


E596 


被 映射 为 600， 那 么 就 
596 之 间 的 所 有 偏 移 生 
量 550 会 映射 到 灾 备 集群 的 偏 移 量 


1 


呆 留 新 的 映射 (569,600) 
量 映射 ， 他 们 假设 差 值 都 是 一 样 的 ， 所 以 主 集群 的 偏 移 


。 他 们 没有 必要 保留 495 和 


时 555。 那么 在 发 生 失 效 备 援 时 ， 他 们 将 主 


集群 的 仿 移 量 与 灾 备 集群 的 偏 移 1 
不 准确 ) 和 偏 移 量 
用 映射 当中 的 偏 移 量 。 对 了 


被 镜像 到 灾 备 集群 的 偏 移 量 3 


之 间 做 映射 。 他 们 通过 上 述 技 术 手 
0 


量 映射 起 来 ， 而 不 是 在 时 间 惟 (通常 会 有 点 
段 之 一 来 强制 消费 者 使 
或 首 没有 及 时 
至 少 已 经 满足 ] 


是 


才 这 


部 分 场景 的 需求 。 


这 种 方案 非常 复杂 ， 我 认为 并 不 值得 投入 额外 的 时 间 。 在 索引 还 没有 出 


由 


现 之 前 ， ee ee he) 
版 本 ， 并 使 用 
量 映 射 并 不 外 


日 


。 但 在 今天 


十 关 所 有 的 居 效 各 撤 罗 景 ， 


时 间 稚 的 解决 方案 ， 而 不 是 进行 仿 


我 倾向 于 将 集群 升级 到 新 
多 量 映 射 ， 更 何况 偏 移 


乡里 


03. 在 失效 备 援 之 后 
假设 失效 备 援 进 行 得 很 顺利 ， 


做 一 些 改动 ， 比 如 把 它 变 成 灾 备 集群 


如 果 能 够 通过 简单 地 改变 镜像 进程 的 方向 ， 
昌 的 主 集 群 上 面 ， 事 情 就 完美 了 7! 不 过 ， 这 上 


” 卜 么 知道 该 从 哪里 开始 说 像 2 我们 同样 需 


相关 的 问题 。 而 且 不 要 起 


者 买 失 数据 ， 或 者 两 者 兼 有 。 
。 之 前 讨论 过 ， 旧 的 主 集群 可 能 会 有 一 
如 有 果 在 这 个 时 候 把 新 的 数据 镜像 回来 ， 那 么 历史 遗留 数据 还 会 继续 存 
在 ， 两 个 集群 的 数据 束 会 出 现 不 一 致 。 


灾 备 集群 也 运行 得 很 正常 ， 现 在 需要 对 主 集群 


让 它 将 数据 从 新 的 主 集群 镜像 到 


还 存在 两 个 问题 。 


基于 上 述 的 考虑 ， 最 简单 的 解决 方案 


要 解决 与 镜像 程序 里 的 消费 者 
了 ， 所 有 的 解决 方案 都 有 可 能 出 现 重复 数据 或 


征 清理 旧 的 主 集群 ， 删 掉 所 有 的 数据 和 


偏 移 量 ， 然 后 从 新 的 主 集群 上 把 数据 镜像 回来 ， 这 样 可 以 保证 两 个 集群 的 数 


据 是 一 致 的 。 
04. 关于 集群 发 现 


在 设计 灾 备 集群 时 ， 需 要 考虑 一 个 很 重要 的 问题 ， 
后 ， 应 用 程序 需要 知道 如 何 与 灾 备 集群 发 起 通信 。 


址 硬 编码 在 生产 者 和 消费 者 的 本 


可 


置 属性 文件 里 。 


日 。 


谍 是 在 发 生 失 效 备 援 之 
不 建议 把 主 集 群 的 主机 地 


大 多 数组 织 为 此 创建 了 DNS 


别名 ， 将 其 指向 主 集 群 ， 一 旦 发 生 紧急 情况 ， 可 以 将 其 指向 灾 备 集群 。 有 些 


就 可 以 狭 取 到 整个 集群 的 元 数据 ， 


组 织 则 使 用 服务 发 现 工具 ， 比 如 Zookeeper、Etcd 或 Consul。 这 些 服务 发 现 
工具 (DNS 或 其 他 ) 没有 必要 将 所 有 broker 的 信息 
端 只 需要 连接 到 其 中 的 一 个 broker， 


都 包含 在 内 ， Kafka 窗户 


并 发 
现 集群 里 的 其 他 broker。 一 般 提供 3 个 broker 的 信息 就 可 以 了 。 除 了 服务 发 


现 之 外 ， 在 大 多 数 情 况 下 ， 需 要 重启 消费 者 应 用 程序 ， 这 样 它们 才能 找到 新 


的 可 用 偏 移 量 ， 然 后 继续 读 取 数据 。 


8.2.5 ”延展 集群 


在 主 备 架 构 里 ， 当 Kafka 集群 发 生 失 效 时 ， 可 以 将 应 用 程序 重 定向 到 为 一 个 集群 


上 ， 以 保证 业务 的 正常 运行 。 而 在 整个 数据 


心 发 生 故 障 时 ， 可 以 使 用 延展 集群 


(stretch cluster) 来 避免 Kafka 集群 失效 。 延 展 集群 就 是 跨 多 个 数据 中 心安 装 的 


单个 Kafka 集群 。 


延展 集群 与 其 他 类 型 的 集群 有 本 质 上 的 区 别 。 
且 单 个 集群 ， 因 此 不 需要 对 延展 集群 进行 镜像 。 延 展 集 群 使 用 Kafka 内 置 的 复制 


机 制 在 集群 的 broker 之 间 同 步 数据 。 


功能 ， 生 产 者 会 在 消息 成 功 写 入 到 其 他 数据 


首先 ， 延 展 集群 并 非 多 个 集群 ， 而 


我 们 可 以 通过 配置 打开 延展 集群 的 同步 复制 


求 使 用 机 架 信息 ， 确 保 每 个 分 区 在 其 他 数据 


心 之 后 收 到 确认 。 同 步 复制 功能 3 


心 都 


存在 副本 ， 还 需要 配置 


min.isr 和 acks=all ， 确 保 每 次 写 入 消息 时 都 可 以 收 到 至 少 两 个 数据 


确认 。 


同步 复制 是 这 种 架构 的 最 大 优势 。 有 些 类 型 的 业务 要 
这 是 一 种 合 规 性 需求 ， 可 以 应 用 在 公司 的 任何 一 个 数据 存储 上 ， 
这 种 架构 的 男 一 个 好 处 是 ， 数 据 


100% 的 同步 ， 
包括 Kafka 本 身 。 
用 ， 不 存在 像 主 备 架 构 那 样 


的 资源 浪费 。 


这 种 架构 的 不 足 之 处 在 于 ， 
故障 ， 无 法 应 对 应 用 程序 或 


已 所 能 应 对 的 灾难 类 型 很 有 限 ， 


心 的 


求 灾 备 站 点 与 主 站 点 保持 


者 Kafka 故障 。 


人 


如 果 能 够 在 至 少 3 个 具有 高 
Zookeeper) ， 


它 所 需要 的 物理 基础 设施 并 不 是 所 有 公司 都 
带宽 和 低 延 迟 的 数据 


人、\ 只 能 应 对 数据 


心 及 所 有 broker 都 发 挥 了 作 


心 的 


运 维 的 复杂 性 是 它 的 另 一 个 不 足 之 


能 够 承担 得 起 的 。 


' 心 上 安装 Kafka (包括 
那么 就 可 以 使 用 这 种 架构 。 “如 采 你 的 公 可 有 3 栋 大 楼 处 于 同一 个 街 


区 ， 或 者 你 的 去 供应 商 在 同一 个 地 区 有 3 个 可 用 的 区 域 ， 那 么 就 可 以 考虑 使 用 这 


为 什么 是 3 个 数据 中 心 ? 主 


要 是 


数 是 奇数 ， 而 且 只 有 当 大 多 


数 市 


心 和 奇数 个 节点 ， 那 么 其 中 
果 这 个 数据 
心 ， 那 么 在 分 

的 一 个 数据 


I 


心 不 可 用 ， 


从 理论 上 说 ， 在 两 个 数据 


法 并 不 常见 


的 一 个 数据 


配 节点 时 ， 可 以 做 到 每 个 数据 


因为 Zookeeper。Zookeeper 要 求 集群 里 的 节点 个 
点 可 用 时 ， 整 个 集群 才 可 用 。 如 果 只 (有 两 个 数据 


心 将 包含 大 多 数 节 点 ， 也 就 是 说 ， 如 


可 用 ， 那 么 Zookeeper 和 Kafka 也 不 可 用 。 如 果 有 3 个 数据 中 


' 心 运行 Zookeeper 和 Kafka 是 可 能 
Zookeeper 的 群 组 配置 成 允许 了 


8.3 Kafka 的 MirrorMaker 


Kafka 提供 了 一 个 简单 的 工具 ， 用 了 


其 他 两 个 数据 
Zookeeper 和 Kafka 仍然 可 用 。 


在 两 个 数据 


的 ， 


' 心 都 不 会 包含 大 多 数 节点 。 如 果 其 
' 心 包含 了 大 多 数 节 点 ， 此 时 


只 要 将 


F 动 进行 失效 备 援 。 不 过 在 实际 应 用 当中 ， 


心 之 间 镜 像 数 据 。 


MirrorMaker， 它 包含 了 


组 消费 者 (因为 历史 原 


被 称 为 流 ) ， 


这 些 消费 者 属于 


MirrorMaker 进程 都 有 一 


个 单独 


消费 者 分 配 一 个 线程 ， 


所 有 的 数据 到 Kafka， 
事件 相应 的 偏 移 量 。 
Kafka 对 消息 进行 确认) ， 
现 60 秒 的 重复 数据 。 


同一 个 群 组 ， 
虫 的 生产 者 。 镜 像 过 程 很 简单 : MirrorMaker 为 每 个 
消费 者 从 源 集群 的 主题 和 分 区 上 读 取 数据 ， 
默认 情况 下 ， 


并 从 主题 上 读 取 数 据 。 


因 ， 它 们 在 MirrorMaker 文档 里 


这 种 做 


这 个 工具 叫 


每 个 


然后 通过 公共 
消费 者 每 60 秘 通知 生 7 者 发 这 


寺 Kafka 的 确认 。 然 后 消费 者 再 通知 源 集群 提交 这 些 


位 可以 左下 丢失 数据 (在 


而 且 如 果 MirrorMaker 进程 发 生 朋 演 ， 


见 图 8-6。 


不 集群 提交 偏 移 量 之 前 ， 


最 多 只 会 出 


源 Kafka 集 群 目标 Kafka 集 群 


图 8-6: MirrorMaker 的 镜像 过 程 


和 MirrorMaker 相关 信息 


MirrorMaker 看 起 来 很 简单 ， 不 过 出 于 对 效率 的 考虑 ， 以 及 尽 可 能 地 做 到 仅 
之 次 传递 ， 它 的 实现 并 不 容易 。 截 止 到 Kafka 0.10.0.0 版 本 ， MirrorMaker 已 

经 被 重 写 了 4 次， 而 且 在 未 来 有 可 能 会 进行 更 多 的 重 写 。 这 里 所 摘 述 的 以 及 
后 续 章 节 将 提 及 的 MirrorMaker 相关 细节 都 基于 0.9.0.0 到 0.10.2.0 之 间 的 版 
本 o 


8.3.1 ”如何 配 置 


MirrorMaker 是 高 度 可 配置 的 。 首 先 ， 它 使 用 了 一 个 生产 者 和 多 个 消费 者 ， 所 以 
生产 者 和 消费 者 的 相关 配置 参数 都 可 以 用 于 配置 MirrorMaker。 另外， 
MirrorMaker 本 身 也 有 一 些 配 置 参 数 ， 这 些 配 置 参 数 之 间 有 时 候 会 有 比较 复杂 的 
依赖 关系 。 下 面 将 举 一 些 例子 ， 并 着 重 说 明 一 些 重要 的 配置 参数 。 不 过 ， 
MirrorMaker 的 详细 文档 不 在 本 书 的 讨论 范围 之 内 。 


先 来 看 一 个 MirrorMaker 的 例子 : 


bin/kafka-mirror-maker --consumer.config etc/kafka/consumer.properties -- 
producer .config etc/kafka/producer.properties --new.consumer --num,streams=2 


whitelist ".*" 


接 下 来 分 别 说 明 MirrorMaker 的 基本 命令 行 参 数 。 


consumer .config 


该 参数 用 于 指定 消费 者 的 配置 文件 。 所 有 的 消费 者 将 共用 这 个 配置 ， 也 就 是 

说 ， 只 能 配置 一 个 源 集群 和 一 个 group. id 。 所 有 的 消费 者 属于 同一 个 消费 者 群 
组 ， 这 正好 与 我 们 的 要 求 不 谋 而 合 。 配置 文件 里 有 两 个 必 选 的 参数 : 
bootstrap.servers ( 源 集 群 的 服务 器 地 址 ) 和 group.id。 除 了 这 两 个 参 
数 外 ， 还 可 以 为 消费 考 指 定 其 他 任意 的 配置 参数 。auto .commit .enable 参数 
一 般 不 需要 修改 ， 用 默认 值 false 就 行 。MirrorMaker 会 在 消息 安全 到 达 目 标 集 
群 之 后 提交 偏 移 量 ， 所 以 不 能 使 用 自动 提交 。 如 果 修 改 了 这 个 参数 ， 可 能 会 导致 
数据 丢失 。auto.offset .reset 参数 一 般 需 要 进行 修改 ， 默 认 值 是 latest 
也 就 是 说 ，MirrorMaker 只 对 那些 在 MirrorMaker 启动 之 后 到 达 源 集群 的 数据 进 

行 镜像 。 如 果 想 要 镜像 之 前 的 数据 ， 需 要 把 该 参数 设 为 earliest 。 我 们 将 在 
0 介绍 更 多 的 配置 属性 。 


producer .config 


该 参数 用 于 指定 生产 者 的 配置 文件 。 配 置 文件 里 唯一 必 选 的 参数 是 
bootstrap.servers (目标 集群 的 服务 器 地 址 ) 。 我 们 将 在 8.3.3 节 介 绍 更 多 
的 配置 属性 。 


New.conNnsumer 


MirrorMaker 只 能 使 用 0.8 版 本 或 者 0.9 版 本 的 消费 者 。 建 议 使 用 0.9 版 本 的 
肖 费 者 ， 因 为 它 更 加 稳定 。 


num.streams 


之 前 已 经 解释 过 ， 一 个 流 就 是 一 个 消费 者 。 所 有 的 消费 者 共用 一 个 生产 者 ， 
MirrorMaker 将 会 使 用 这 些 流 来 填充 同一 个 生产 者 。 如 果 需 要 额外 的 吞吐 量 ， 束 
需要 创建 男 一 个 MirrorMaker 进程 。 


一 < 


whitelist 


这 是 一 个 正则 表达 式 ， 代 表 了 需要 进行 镜像 的 主题 名 字 。 所 有 了 表达 式 于 配 
的 主题 都 将 被 镜像 。 在 这 个 例子 里 ， 我 们 希望 镜像 所 有 的 主题 ， 不 过 在 实际 当 
最 好 使 用 类 似 “prod. *» 这 样 的 表达 式 ， 避免 镜像 测试 用 的 主题 。 在 双 活 架构 中 ， 
MirrorMaker 将 NYC 数据 中 心 的 数据 镜像 到 SE， 为 其 配置 了 
whilelist="NYC.\*" ， 这 样 就 不 会 将 SF 的 主题 重新 镜像 回来 。 


8.3.2 ”在 生产 环境 部 署 MirrorMaker 


在 上 面 的 例子 里 ， 我 们 是 从 命令 行 启动 MirrorMaker 的 。 在 生产 环境 ， 
MirrorMaker 一 般 是 作为 后 省 服务 运行 的 ， 而 且 是 以 nohup 的 方式 运行 ， 并 将 控 
制 台 的 输出 重 定向 到 一 个 日 志文 件 里 。 这 个 工具 有 一 个 入 -deamon 命令 行 参数 。 
理论 上 ， 只 要 使 用 这 个 参数 束 能 实现 后 台 运 行 ， 不 需要 再 做 其 他 任何 事情 ， 但 在 
实际 当 . 最 近 发 布 的 一 些 版 本 并 不 外 g 如 我 们 所 期 望 的 那样 。 


大 部 分 使 用 MirrorMaker 的 公司 都 有 上 自己 的 启动 脚本 ， 他 们 一 般 会 使 用 部 署 系统 
(比如 Ansible、Puppet、Chef 和 Salt) 实现 


自动 化 的 部 署 和 配置 管理 。 


在 Docker 容器 里 运行 MirrorMaker 变 得 越 来 越 流 行 。MirrorMaker 是 完全 无 状态 
的 ， 也 个 需要 磁盘 仓储 (所 有 的 数据 和 状态 都 保存 在 Kafka 上 ) 。 将 
MirrorMaker 安装 在 Docker 里 ， 整 可 以 实现 在 单 台 主机 上 运行 多 个 MirrorMaker 


实例 。 因 为 单个 MirrorMaker 实例 的 吞吐 量 


量 受 限于 单个 生产 者 ， 所 以 为 了 提升 否 


吐 量 ， 需 要 运行 多 个 MirrorMaker 实例 ， 而 Docker 简化 了 这 一 过 程 。Docker 也 让 


MirrorMaker 的 伸缩 变 得 更 加 容易 ， 在 流量 量 高 峰 时 ， 可 以 通过 增加 更 多 的 容器 来 


提升 吞吐 量 ， 在 流量 低谷 时 ， 则 减少 容器 。 


。 如 果 在 云端 运行 MirrorMaker， 根 据 
吞吐 量 实 际 ; 博 况 ， 可 以 通过 增加 额外 的 服务 器 来 运行 Docker 容器 。 


如 果 有 可 能 ， 尽 量 让 MirrorMaker 运行 在 目标 数据 中 心里 。 也 就 年 说 ， 如 果 要 将 
NYC 的 数据 发 送 到 SF，MirrorMaker 应 该 运行 在 SF 的 数据 中 心里 。 因 为 长 距离 


的 外 部 网 络 比 数据 中 心 的 内 部 网 络 更 加 不 可 靠 ， 如 果 发 生 了 网 络 分 区 ， 数 据 中心 
之 间断 开 了 连接 ， 那 么 一 个 无 法 连接 到 集群 的 消费 者 要 比 一 个 无 法 连接 到 集群 的 
生产 者 要 安全 得 多 。 如 末 消 费 者 无 法 连接 到 集群 ， 最 多 也 就 是 无 法 读 取 数据 ， 数 
据 仍然 会 在 Kafka 集群 里 保留 很 长 的 一 段 时 间 ， 不 会 有 丢失 的 风险 。 相 反 ， 在 发 


生 网 络 分 区 时 ， 如 果 MirrorMaker 已 经 读 了 到 了 数据 ， 但 无 法 将 数据 生成 到 目标 集 
群 上 ， 就 会 造成 数据 丢失 。 所 以 说 ， 远 程 读 取 比 远程 生成 更 加 安全 。 


那么 ， 什 么 情况 下 需要 在 本 地 读 取消 息 并 将 其 生成 到 远程 数据 中 心 昵 ? 如 果 需 要 
加 密 传输 数据 ， 但 又 不 想 在 数据 中 心 进 行 加 蜜 ， 束 可 以 使用 这 种 万 式 。 ° 消费 者 通 


过 SSL 连接 到 Kafka 对 性 能 有 一 定 的 影响 ， 


这 个 比 生产 者 要 严重 得 多 ， 而 且 这 种 


性 能 问题 也 会 影响 broker。 如 果 跨 数据 中 心 流 量 需 要 加 密 ， 那 么 最 好 把 


MirrorMaker 放 在 源 数据 中 心 ， 让 它 读 取 本 地 的 非 加 密 数据 ， 然后 通过 SSL 连接 
使 用 SSL 连接 的 是 生产 者 ， 所 以 性 能 
需要 确保 MirrorMaker 在 收 到 目标 


将 数据 生成 到 远程 的 数据 中 心 。 这 个 时 候 ， 
问题 就 不 那么 明显 了 。 在 使 用 这 种 方式 时 ， 


broker 副本 的 有 效 确认 之 前 不 要 提交 偏 移 量 ， 


缓冲 区 洲 出 的 情况 下 立即 停止 镜像 。 


如 果 硕 望 减 小 源 集 群 和 目标 集群 之 间 的 延迟 ， 可 以 在 不 同 的 机 器 上 运行 至 少 两 个 


并 在 重 试 次 数 超出 限制 或 者 生产 者 


MirrorMaker 实例 ， 而 且 它 们 要 使 用 相同 的 浓 费 者 群 组 。 也 束 是 说 ， 如 采 关 挥 其 


一 台 服 务 器 ， 男 一 个 MirrorMaker 实例 能 


多 继续 镜像 数据 。 


在 将 MirrorMaker 部 署 到 生产 环境 时 ， 最 好 要 对 以 下 几 项 内 容 进 行 监控 。 


延迟 监控 


移 量 和 目标 集群 最 新 篇 移 量 的 差异 上 。 


我 们 绝对 有 必要 知道 目标 集群 是 否 落 后 
见 


色 8- 


延迟 体现 在 源 集群 最 新 偏 


生产 环境 的 Kafka 集 群 生产 环境 的 Kafka 集 群 
主题 A, 分 区 0 主题 A, 分 区 0 


MirrorMaker 


主题 消费 者 偏 移 量 [| 


群 组 MirrorMaker, 
主题 A, 分 区 0,， 
偏 移 量 3 


图 8-7: 监控 不 同 偏 移 量 之 间 的 延迟 


如 图 8-7 所 示 ， 源 集群 的 最 后 一 个 偏 移 量 是 7， 而 目标 集群 的 最 后 一 个 偏 移 量 古 
5， 所 以 它们 之 间 有 两 个 消息 的 延迟 。 


有 两 种 方式 可 用 于 跟踪 延迟 ， 不 过 它们 都 不 是 完美 的 解决 方案 。 


。 检查 MirrorMaker 提交 到 源 集 群 的 最 新 偏 移 量 。 可 以 使 用 kafka-consumer- 
groups 工具 检查 MirrorMaker 读 取 的 每 一 个 分 区 ， 查 看 分 区 的 最 新 偏 移 量 ， 
也 就 是 MirrorMaker 提交 的 最 新 偏 移 量 。 不 过 这 个 偏 移 量 并 不 会 100% 的 准 
确 ， 因 为 MirrorMaker 并 不 会 每 时 每 刻 都 提交 偏 移 量 ， 默 认 情 况 下 ， 它 会 每 
分 钟 提交 一 次 。 所 以 ， 我 们 最 多 会 看 到 一 分 钟 的 延迟 ， 然后 迁 妈 突然 下降 。 
图 8-7 中 的 延迟 是 2， 但 kafka-consumer-groups 会 认为 是 4， 因 为 
MirrorMaker 还 没有 提交 最 近 的 偏 移 量 。 LinkedIn 的 burrow 也 会 监控 这 些 信 
不 过 它 使 用 了 更 为 复杂 的 方法 来 识别 延迟 的 真实 性 ， 所 以 不 会 导致 误 
。 检查 MirrorMaker 读 取 的 最 新 偏 移 量 (即使 还 未 提交 ) 。 消 费 考 通过 JMX 发 
布 关键 性 度量 指标 ， 其 有 一 个 指标 是 指 消费 者 的 最 大 延迟 ( 基 了 它 所 读 取 
的 所 有 分 区 计算 得 出 的 ) 。 这 个 延迟 也 不 是 100% 的 准确 ， 因 为 它 只 反映 
消费 者 读 取 的 数据 ， 并 没有 考虑 生产 者 是 否 成 功 地 将 数据 发 送 到 目标 集群 
上 。 在 图 8-7 的 示例 里 ，MirrorMaker 消费 者 会 认为 延迟 是 1， 而 不 是 2， 
为 它 已 经 恋 取 了 消息 6， 尽管 这 个 消息 还 没有 被 生成 到 目标 集群 上 。 
要 注意 ， 如 果 MirrorMaker 跳 过 或 丢弃 部 分 消息 et 息 下 i 检测 到 
的 ， 因 为 它们 只 跟踪 最 新 的 俩 移 是 。 Confluent 的 Control Center 通过 监控 消息 的 
数量 和 校 验 和 来 提升 监控 的 准确 性 
度量 指标 监控 
MirrorMaker 内 舱 了 生产 者 和 消费 者 ， 它 们 都 有 很 多 可 用 的 度量 指标 ， 所 以 
建议 对 它们 进行 监控 。Kafka 文档 列 出 了 所 有 可 用 的 度量 指标 。 下 面 列 出 了 几 个 
经 被 证 明 能 够 提升 MirrorMaker 性 能 的 度量 指标 。 


消费 者 


fetch-size-avg 、 fetch-size-max ~、 fetch-rate ~、 fetch- 
throttle-time-avg 以 及 fetch-throttle-time-max 。 


生产 者 


batch-size-avg 、 batch-size-max ~、 requests-in-flight 以 
及 record-retry-rate 。 


同时 适用 于 两 者 
io-ratio 和 io-wait-ratio 。 
canary 


如 果 对 所 有 东西 都 进行 了 监控 ， 那 么 canary 就 不 是 必需 的 ， 不 过 对 于 多 层 监控 来 
说 ， canary 可 能 还 是 有 必要 的 。 我 们 可 以 每 分 钟 往 源 集群 的 某 个 特定 主题 上 发 送 
一 个 事件 ， 然 后 尝试 从 日 标 集群 读 取 这 个 事件 。 如 果 这 个 事件 在 给 定 的 时 间 之 后 
才 到 达 ， 那 么 就 发 出 告警 ， 说 明 MirrorMaker 出 现 了 延迟 或 者 已 经 不 正常 了 。 


8.3.3 ”MirrorMaker 调 优 


MirrorMaker 集群 的 大 小 取 雇 于 对 吞吐 量 的 需求 和 对 延迟 的 接受 程度 。 如 果 不 允 
许 有 任何 延迟 ， 那 么 MirrorMaker 集群 的 容量 需要 能 够 支撑 吞吐 量 的 上 限 。 如 果 
可 以 容忍 一 些 延迟 ， 那 么 可 以 在 95%~99% 的 时 间 里 只 使 用 75%~80% 的 容量 。 在 
吞吐 量 高 峰 时 可 以 允许 一 些 延 迟 ， 高 峰 期 结束 时 ， 因 为 MirrorMaker 有 一 些 空余 
容量 $y 可 以 很 容易 地 消除 延迟 


你 可 能 想 通 过 消费 者 的 线程 数 (通过 num., streams 参数 配置 ) 来 衡量 
MirrorMaker 的 吞吐 量 。 我 们 可 以 提供 一 些 参考 数据 (LinkedIn 使 用 8 个 消费 者 
可 以 达到 6MB/s 的 吞吐 量 ， 使 用 16 个 则 可 以 达到 12MB/s) ， 不 过 实际 的 吞吐 量 
取决 于 具体 的 硬件 、 数 据 中 心 或 云 服 务 提供 商 ， 所 以 需 要 自己 进行 测试 。Kafka 
提供 了 kafka- -Performance- producer 工具 ， 用 于 在 源 集 群 上 制造 负载 ， 然 后 局 动 
MirrorMaker 对 这 个 负载 进行 镜像 。 分 别 为 MirrorMaker 配置 1、2、 :让 8、16、 
24 和 32 71 个 消费 者 线程 并 观察 性 能 在 哪个 点 开始 下 降 ， 然 后 将 num. streams 
0 个 小 于 当前 点 5 的 整数 。 如 果 数 据 经 过 压缩 (因为 网 络 带 宽 是 跨 集群 
镜像 的 瓶颈 ， 所 以 建议 将 数据 压 缩 后 再 传输 ) ， 那 么 MirrorMaker 还 要 负责 解压 
并 重新 压缩 这 些 数据 。 这样 会 消耗 很 多 的 CPU 资源 ， 所 以 在 增加 线程 数量 时 ， 
要 注意 观察 CPU 的 使 用 情况 。 通 过 这 种 方式 ， 可 以 得 到 单个 MirrorMaker 实例 的 
最 大 吞吐 量 。 如 果 单 个 实例 的 吞吐 量 还 达 不 到 要 求 ， 可 以 增加 更 多 的 
MirrorMaker 实例 和 服务 器 。 


另外 ， 你 可 能 想 要 分 离 比较 敏感 的 主题 ， 它 们 要 求 很 低 的 延迟 ， 所 以 其 镜像 必须 
尽 可 能 地 接近 源 集群 和 MirrorMaker 集群 。 这 样 可 以 避免 主题 过 于 腾 肿 ， 或 者 避 
免 出 现 失控 的 生产 者 拖 慢 数据 管道 。 


我 们 能 够 对 MirrorMaker 进行 的 调 优 也 就 是 这 些 了 。 不 过 ， 我 们 仍然 有 其 他 办 法 
可 以 增加 每 个 消费 者 和 每 个 MirrorMaker 的 吞吐 量 。 


如 果 MirrorMaker 是 跨 数 据 中 心 运 行 的 ， 可 以 在 Linux 上 对 网 络 进行 优化 。 


。 增加 TCP 的 缓冲 区 大 小 (net,core,rmem_defau1lt 、 
net.core.rmem max ~ net.core.wmem default 、 
net.core.wmem max ~ net,.core.optmem max) 。 

。 启用 时 间 窗 口 自动 伸缩 (sysctl1 -w 

net .ipv4.tcp_window_scaling=1 或 者 把 

net .ipv4.tcp_window_scaling=1 添加 到 /etc/sysctl.conf) 。 

减少 TCP 慢 启 动 时 间 (将 

/proc/sys/net/ipv4/tcp_slow_start_after_idle 设 为 0) 。 


要 注意 ， 在 Linux 上 进行 网 络 调 优 包 含 了 太 多 复杂 的 内 容 。 为 了 了 解 更 多 参数 和 
细 五 ， 建 议 阅读 相关 的 网 络 调 优 指南 。 例 如 ， 由 Sandra K.Johnson 等 人 合 著 的 


Performance tuning for Linux servers ° 


除 此 以 外 ， 你 可 能 还 想 对 MirrorMaker 里 的 生产 者 和 消费 者 进行 调 优 。 首 先 ， 你 
想 知 道生 产 者 或 消费 者 是 不 是 瓶颈 所 在 一 一 生产 者 是 否 在 等 竺 消费 者 提供 更 多 的 
数据 ， 或 者 其 他 的 什么 ? 通过 查看 生产 者 和 消费 者 的 度量 指标 就 可 以 知道 问题 所 
在 了 ， 如 果 其 的 一 个 进程 空闲， 而 另外 一 个 很 仁 ， 那 么 就 知道 该 对 哪个 进行 调 
优 了 。 另 外 一 种 办 法 是 查看 线程 转 储 (thread dump) ， 可 以 使 用 jstack 获得 线程 
ee 如 果 MirrorMaker 的 大 部 分 时 间 用 在 轮 询 上 ， es 

， 如 果 大 部 分 时 间 用 在 发 送 上 ， 那 么 就 是 生产 者 出 现 了 瓶颈 


如 果 需 要 对 生产 者 进行 调 优 ， 可 以 使 用 下 列 参 数 。 
max.in.flight.requests.per.connection 


默认 情况 下 ，MirrorMaker 只 人 允许 存在 一 个 处 理 中 的 请 求 。 也 就 是 说 ， 生 产 
者 在 发 送 下 一 个 消息 之 前 ， 当 前 发 送 的 消息 必须 得 到 目标 集群 的 确认 。 这 样 会 对 
吞吐 量 造 成 限制 ， 特 别 是 当 broker 在 对 消 思 进 行 确认 之 前 出 现 了 产 重 的 延迟 。 
MirrorMaker 之 所 以 要 限定 请 求 的 数量 ， 是 因为 有 些 消息 在 得 到 成 功 确认 之 前 需 
要 进行 重 试 ， 而 这 是 唯 能 够 保证 消息 次 序 的 方法 。 如 果 不 在 乎 消息 的 次 序 ， 那 
么 可 以 通过 增加 max .in.flight.requests.per .connection 的 值 来 提升 
吞吐 量 。 


linger.ms 和 batch.size 


如 果 在 进行 监控 时 发 现 生 产 者 总 是 发 送 未 填 满 的 批 次 〈 比 如， 度量 指标 
batch-size-avg 和 batch-size- Max 的 值 总 是 比 batch. size 低 ) ， 那 么 
就 可 以 通过 增加 一 些 延 迟 来 提升 吞吐 量 。 通 过 增加 latency .ms 可 以 让 生产 者 
在 发 送 批 次 之 前 等 待 儿 宫 秒 ， 让 批 次 填充 更 多 的 数据 。 如 果 发 送 的 数据 都 是 满 批 


次 的 ， 同 时 还 有 空余 的 内 存 ， 那 么 可 以 配置 更 大 的 batch ,size ， 以 便 发 送 更 
大 的 批 次 。 
下 面 的 配置 用 于 提升 消费 者 的 吞吐 量 。 

。 range 。MirrorMaker 默认 使 用 range 策略 (用 于 确定 将 哪些 分 区 分 配给 哪 
个 消费 者 的 算法 ) 进行 分 区 分 配 。range 策略 有 一 定 的 优势 ， et 
么 它 会 成 为 默认 的 策略 。 不 过 range 策略 会 导致 不 公平 现象 。 对 于 
MirrorMaker 来 说 ， 最 好 可 以 把 策略 改 为 ound robin ， 特 别 是 在 镜像 大 


配置 属 


1 


量 的 主题 和 分 区 的 时 候 。 要 将 策略 改 为 round robin 算法 ， 需要 在 消费 者 


partition.assignment.strategy=org.apache.kafka.clients. 
consumer .RoundRobinAssignor 。 


fetch.max.bytes ° 


如 采 度 


量 指标 显示 fetch-size-avg 和 fetch- 


size-max 的 数值 与 fetch .max .bytes 很 接近 ， 说 明 消 费 者 读 取 的 数据 


已 经 接近 上 限 。 如 果 有 更 多 的 可 用 内 存 ， 
fetch ,max,bytes ， 


可 以 


人 配置 更 大 的 


fetch .min.bytes 和 fetch.max.wait 


的 值 很 高 ， 说 明 消 


费 者 发 送 的 请 


时 候 可 以 配置 更 大 的 fetch .min,.,bytes 和 fetch.max.wait ， 
者 的 每 个 请 求 就 可 以 获取 到 更 多 的 数据 ， 


时 才 将 响应 返回 。 


消费 者 就 可 以 在 每 个 请 


里 读 取 更 多 的 数据 。 


。 如 果 度 量 指标 fetch-rate 


求 太 多 了 ， 


8.4 其 他 跨 集群 镜像 方案 


我 们 深入 了 解 了 MirrorMaker， 
使 用 当 


替代 


方案 


8.4.1 优 步 的 uReplicator 


优 步 
的 增 


例 、 重 启 MirrorMaker 实例 或 往 白 名 单 旦 


衡 。 


在 他 们 的 Kafka 


集群 上 大 规模 地 使 用 MirrorMaker， 


因为 MirrorMaker 是 Kafka 有 
当中 ，MirrorMaker 也 存在 一 些 不 足 。 在 MirrorMaker 之 外 ， 
它们 解决 了 MirrorMaker 的 局 限 性 和 复杂 性 问题 。 


而 且 获取 不 到 足够 的 数据 。 


加 以 及 集群 否 吐 量 的 增长 ， 他 们 开始 面临 一 些 问 题 。 
再 均衡 延迟 


MirrorMaker 中 的 消 


9 费 者 只 是 


里 添加 新 主题 时 ，? 


这 样 消 
broker 会 等 等 到 有 足够 多 的 可 用 数据 


这 个 
费 


。 不 过 在 实际 
其 他 的 一 些 


不 过 ， 随 着 主题 和 分 区 


普通 的 消费 者 ， 在 增加 MirrorMaker 的 线程 和 实 
消费 者 都 需 要 进行 表 均 


正如 在 第 4 半 里 所 看 到 的 那样 ， 再 均衡 要 求 关 闭 所 有 的 消费 者 ， 直 到 新 的 分 


区 被 分 
果 使 


配给 消 了 费 者 


如 有 果 主 题 和 分 区 的 数 


量 很 大 ， 


整个 过 程 需 


要 很 长 的 时 间 。 如 


用 了 旧版 本 的 消费 者 则 更 是 如 此 ， 比 如 像 优 步 那 样 。 有 了 时候 ， 这 会 造成 5~10 


分 钟 的 不 可 用 ， 


导致 镜像 过 程 延 后 ， 堆 积 大 量 


行 恢复 ， 


难以 增加 新 主题 
因为 白 名 单 使 用 了 正则 表达 式 进行 主题 匹配 ， 每 次 新 增 主题 时 ，MirrorMaker 


这 将 给 其 


其 他 消费 者 带 来 很 大 的 延迟 。 


的 待 锐 像 数 据 ， 需 要 更 长 的 时 间 进 


都 需要 进行 青 均 衡 。 我 们 已 经 看 到 优 步 在 这 方面 所 遭遇 的 痛 疝 。 5%. 司 玉 ， 为 了 避免 


动 往 白 名 单 里 


添加 新 主题 ， 


意外 的 再 均衡 ， 他 们 把 每 一 个 需要 镜像 的 主题 都 列 了 出 来 ， 这 意味 着 他 们 需 


不 过 这 样 最 起 码 可 以 保证 再 均衡 只 会 在 进行 维护 时 发 
生 ， 而 不 是 在 每 次 添加 新 主题 时 发 生 。 不 过 不 管 怎样 ， 


党 性 的 维护 是 避免 不 了 


的 。 如 果 没 有 做 好 维护 工作 ， 不 同 的 实例 可 能 拥有 不 人 MirrorMaker 


瑟 会 无 休止 地 进行 再 均衡 ， 因 为 消融 


费 者 无 法 就 它们 所 订阅 的 主题 达成 一 致 。 


为 了 解决 上 述 问 题 ， 优 步 开 发 了 uReplicator。 他 们 使 用 Apache Helix (以 下 人 简称 


Helix) 作为 


心 控制 大 


(具有 高 可 用 性 ) 


， 控 制 器 管理 着 主题 列表 和 分 


配给 每 个 


实例 的 分 区 。 管 理 员 通过 REST API 添加 新 主题 ，uReplicator 负责 将 


winorMater a 8 
， 而 不 是 在 济 
衔 并 改 为 监 


给 不 同 的 消费 者 。 优 步 使 用 


的 Kafka Consumer 。Helix Consumer 接受 由 


来 


优 步 在 他 们 的 博客 上 分 享 了 uReplicator 的 架 


前 为 止 ， 


我 们 并 不 知道 
还 达 不 到 Uber 那样 的 规模 ， 也 没有 遇 和 至 
他 们 来 说 需要 进行 额外 的 学 习 和 管理 ， 


首 旦 
征 


人 


自己 开发 的 Helix Consumer 替换 
Helix 控制 器 分 配 的 分 
当 费 者 间 进行 再 均衡 (更 多 细节 万 参考 第 4 章 ) ， 从 而 避免 了 再 均 

月 Helix 控制 器 的 分 配 ? 


e 构 细节 及 其 所 经 历 的 改进 过 程 。 到 目 


8.4.2 ”Confluent 的 Replicator 


在 优 步 开发 UReplicator 的 同时 ，Confluent 也 开发 了 他 们 的 Replicator。 除 了 名 字 
有 点 相似 外 ， 它 们 之 间 没 有 任何 共同 点 ， 所 要 解决 的 问题 世 个 一 样 。Replicator 为 


Confluent 的 企业 用 户 解 决 了 他 1 门 在 使 用 MirrorMaker 进行 多 


问题 。 


分 散 的 集群 配置 
MirrorMaker 只 能 做 到 源 集 群 和 目标 集群 之 间 的 数据 同步 ， 


同 的 分 区 、 不 同 的 复制 系数 和 不 同 的 配置 。 
灾 备 集群 也 做 同样 的 修改 ， 


3 周 ， 但 瑟 


丢失 几 周 的 数据 。 


统 出 现 了 


求 记 给 


否 还 有 其 他 公司 在 使 用 uReplicator 。 或 许 大 部 分 公司 都 
| 相同 的 问题 ， 又 或 者 新 引入 的 Helix 对 于 
增加 了 整个 项 目的 复杂 性 。 


集群 部 署 时 所 遇 到 的 


而 主题 可 以 有 不 
如 采 将 源 集群 的 保留 时 间 从 1 周 改 为 


一 日 旦 灾 备 集群 发 生 了 失效 备 援 ， 谍 会 


通过 寻 


F 动 的 方式 对 所 有 


配置 进行 同步 很 容易 出 错 ， 


不 同步 ， 会 导致 下 游 的 应 用 或 者 镜像 进程 失效 。 
在 集群 管理 方面 所 面临 的 挑战 


而 


且 如 采 系 


MirrorMaker 一 般 是 以 多 实例 的 集群 方式 进行 部 署 的 ， 这 意味 着 它 本 身 也 需 
要 进行 部 署 、 监 控 和 配置 管理 。 两 个 配置 文件 和 大 量 的 间 轩 参数 让 MirrorMaker 
的 配置 管理 变 得 极 具 挑战 性 。 如 果 和 集群 超过 了 两 个 ， 而 是 集群 则 的 复制 是 双向 
的 ， 那 么 情况 会 更 加 严峻 。 如 果 有 3 个 双 活 集群 ， 就 有 6 个 MirrorMaker 集群 需 
要 进行 部 署 、 监 控 和 配置 ， 而 且 每 个 集群 至 少 需要 3 个 实例 。 如 果 有 5 个 双 活 集 
和 群 ， 就 需要 20 个 MirrorMaker 集群 。 


为 了 减轻 开 部 门 的 负担 ，Confluent 将 Replicator 实现 为 Connect 的 源 连 接 器 ， 从 
Kafka 集群 读 取 数 据 ， 而 不 是 从 数据 库 读 取 。 在 第 7 章 介绍 Connect 的 架构 时 ， 
我 们 知道 ， 连 接 器 会 将 工作 分 配给 多 个 任务 。 在 icio 里 ， 每 个 任务 包含 了 
个 消费 者 和 个 生产 者 。Connect 根据 实际 情况 将 不 同 的 任务 分 配给 不 同 的 
Ws 节 点 ， 因 此 单个 服务 器 上 可 能 会 有 多 个 任务 ， 或 者 任务 被 分 散在 多 个 服务 
这 样 就 避免 了 手动 去 配置 每 个 上 MirrorMaker 实例 需要 多 少 个 线程 以 及 每 台 
ee MirrorMaker 实例 。Connect 还 提供 了 REST API， 用 于 集中 管 
理 连接 器 和 任务 。 假 设 大 部 分 Kafka 都 部 署 了 Connect (比如 为 了 将 数据 库 的 变 
更 事件 写 入 Kafka) ， 那么 通过 在 Connect 里 运行 Replicator， 就 可 以 减少 需要 管 


理 的 集群 数量。 另 一 个 重大 的 改进 在 于 ，Replicator 不 仅 会 从 Kafka 主题 复制 数 
据 ， 它 还 会 从 Zookeeper 上 复制 主题 的 配置 信息 。 
8.5 ”总结 


本 证 从 解释 为 化 么 需 和 要 多 个 Kafka 集群 开始 ， 介 绍 了 几 种 从 简单 到 复杂 的 多 集群 

架构 ， 还 介绍 了 Kafka 失效 备 援 的 实现 细节 ， 并 比较 了 当前 几 种 可 用 的 方案 。 接 
下 来 介绍 了 一 些 可 用 的 工具 ， 从 MirrorMaker 开始 ， 说 明了 在 生产 环境 中 使 用 
MirrorMaker 要 注意 的 细节 问题 ， 最 后 介绍 了 MirrorMaker 之 外 的 两 个 替代 方案 ， 
用 于 弥补 MirrorMaker 本 身 的 不 足 。 


不 管 最 终 选 择 哪 一 种 架构 和 工具 ， 对 多 集群 配置 和 镜像 管道 进行 测试 总 是 少不了 
的 因为 Kafka 多 集群 管理 比 关 系 型 数据 库 要 人 简单 得 多 ， 所 以 很 多 组 织 总 是 忽视 
了 对 它 进行 适当 的 设计 、 规划 、 测试 、 自 动 化 部 署 、 监 控 和 维护 。 重 视 多 集群 的 
管理 问题 ， 并 把 它 作 为 组 织 的 全 盘 灾 备 计 划 或 多 区 域 计划 的 一 部 分 ， 才 有 可 能 更 
好 地 管理 好 多 个 Kafka 集群 。 


Le] 


第 9 章 管理 Kafka 


Kafka 提供 了 一 些 命 令 行 工 具 ， 用 于 管理 集群 的 变更 。 这 些 工 具 使 用 Java 类 实 
现 ，Kafka 提供 了 一 些 脚本 来 调用 这 些 Java 类 。 不 过 ， 它 们 只 提供 了 一 些 基 本 的 
功能 ， 无 法 完成 那些 复杂 的 操作 。 本 章 将 介绍 一 些 工具 ， 它 们 是 Kafka 开放 源码 


项 目的 一 部 分 。Kafka 社区 也 开发 了 很 多 高 级 的 工具 ， 我 们 可 以 在 Apache Kafka 
网 站 上 找到 它们 ， 不 过 它们 并 不 属于 Kafka 项 目 。 


全 、 管理 操作 授权 


虽然 Kafka 实现 了 操作 主题 的 认证 和 授权 控制 ， 但 还 不 文 持 集 群 的 其 他 大 部 
分 操作 。 也 吏 是 说 ， 在 没有 认证 的 情况 下 也 可 以 使 用 这 些 命令 行 工具 ， 在 没 
有 安全 检查 和 审计 的 情况 下 也 可 以 执行 诸如 主题 变更 之 类 的 操作 。 不 过 这 些 
功能 正在 开发 当中 ， 应 该 很 快 就 能 发 布 。 


9.1 主题 操作 


使 用 kafka-topics.sh 工具 可 以 执行 主题 的 大 部 分 操作 (配置 变更 部 分 已 经 被 弃 用 
并 被 移动 到 kafka-configs.sh 工具 当中 ) 。 我 们 可 以 用 它 创 建 、 修 改 、 删 除 和 查看 
集群 里 的 主题 。 要 使 用 该 工具 的 全 部 功能 ， 需 要 通过 - -Zz00keeper 参数 提供 
Zookeeper 的 连接 字符 串 。 在 下 面 的 例子 里 ，Zookeeper 的 连接 字符 串 是 
zo01.example.com:2181/kafka-cluster 。 


\ 检查 版 本 
Kafka 的 大 部 分 命令 行 工 具 直 接 操 作 Zookeeper 上 的 元 数据 ， 并 不 会 连接 到 


broker 上 。 因 此 ， 要 确保 所 使 用 工具 的 版 本 与 集群 里 的 broker 版 本 相 匹 配 。 
直接 使 用 集群 broker 自 带 的 工具 是 最 保险 的 。 


9.1.1 创建 主题 


在 集群 里 创建 一 个 主题 需要 用 到 3 个 参数 。 这 些 参数 是 必须 提供 的 ， 尽 管 有 些 已 
经 有 了 broker 级 别 的 默认 值 。 


主题 名 字 
想 要 创建 的 主题 的 名 字 。 
复制 系数 
主题 的 副本 数量 。 
分 区 
主题 的 分 区 数量 。 


和 指定 主题 配置 


可 以 在 创建 主题 时 显 式 地 指定 复制 系数 或 者 对 配置 进行 覆盖 ， 不 过 我 们 不 打 
算 在 这 里 介绍 如 何 做 到 这 些 。 稍 后 会 介绍 如 何 进行 配置 覆盖 ， 它 们 是 通过 向 
kafka-topics.sh 传递 - -config 参数 来 实现 的 。 本 章 还 会 介绍 分 区 的 重 分 

机 。 


主题 名 字 可 以 包 仿 字母、 数字、 下划线 以 及 英文 状态 下 的 破 折 号 和 人 句号 。 


做 \ 主题 的 命名 


主题 名 字 的 开头 部 分 包含 两 个 下 划 线 是 合法 的 ， 但 不 建议 这 么 做 。 具 有 这 种 
格式 的 主题 一 般 是 集群 的 内 部 主题 (比如 __consumer_offsets 主题 用 于 
保存 消费 者 群 组 的 偏 移 量 ) 。 也 不 建议 在 单个 集群 里 使 用 英文 状态 下 的 句号 
和 下 划 | 线 来 命名 ， 因 为 主题 的 名 字 会 被 用 在 度量 指标 上 ， 句 号 会 被 蔡 换 成 下 
划 线 (比如 “topic.1” 会 变 成 “topic_1”) 。 


试 着 运行 下 面 的 命令 : 


kafka-topics.sh --zookeeper <zookeeper connect> --create --topic <string> 
--replication-factor <integer> --partitions <integer> 


这 个 命令 将 会 创建 一 个 主题 ， 主 题 的 名 字 为 指定 的 值 ， 并 包含 了 指定 数量 的 分 
区 。 集群 会 为 每 个 分 区 创建 指定 数量 的 副本 。 如 果 为 集群 指定 了 基于 机 架 信 息 的 
副本 分 配 策略 ， 那 么 分 区 的 副本 会 分 布 在 不 同 的 机 架 上 。 如 果 不 需要 基于 机 架 信 
息 的 分 配 策略 ， 可 以 指定 参数 - -disable-rack-aware。 


示例 : 使 用 以 下 命令 创建 一 个 叫 作 my-topic 的 主题 ， 主 题 包含 8 个 分 区 ， 每 个 分 
区 拥有 两 个 副本 。 


# kafka-topics.sh --zookeeper zoo1.example.com:2181/kafka-cluster --create 
--topic my-topic --replication-factor 2 --partitions 8 

Created topic "my-topic". 

# 


和 忽略 重复 创建 主题 的 错误 


在 自动 化 系统 里 调用 这 个 脚本 时 ， 可 以 使 用 - -if-not-exists 参数 ， 
样 即 使 主题 已 经 存在 ， 也 不 会 抛 出 重复 创建 主题 的 错误 。 


9.1.2 ”增加 分 区 


有 了 时候 ， 我 们 需要 为 主题 增加 分 区 数量 。 主 题 基 于 分 区 进行 伸缩 和 复制 ， 增 加 分 
区 主要 是 为 了 扩展 主题 容 ee 如 有 果 要 在 单个 消费 者 群 
组 内 运行 更 多 的 消费 者 ， 那 么 主题 数量 也 需要 相应 增加 ， 因 为 一 个 分 区 只 能 由 群 
组 里 的 一 个 消费 者 读 取 。 


做 、 调整 基于 键 的 主题 


从 消费 着 角度 来 看 ， 为 基于 键 的 主题 添加 分 区 是 很 困难 的 。 
分 区 的 数量 ， 键 到 分 区 之 间 的 映射 也 会 发 生变 化 。 所 以 ， 对 于 基于 键 的 主题 
来 说 ， 建议 在 一 开始 就 设置 好 分 区 数量 ， 避 免 以 后 对 其 进行 调整 。 


和 忽略 主题 不 存在 的 错误 


在 使 用 - -alter 命令 修改 主题 时 ， 如 果 指 定 了 - -if-exists 参数 ， 主 题 
不 存在 的 销 误 就 会 被 和 忽略。 如果 要 修改 的 主题 不 存在 ， 该 命令 并 不 会 返回 任 
何 错误 。 在 主题 不 存在 的 时 候 本 应 该 创建 主题 ， 但 它 却 把 错误 隐藏 起 来 ， 因 
此 不 建议 使 用 这 个 参数 。 


示例 : 将 my-topic 主题 的 分 区 数量 增加 到 16 。 


# kafka-topics.sh --zookeeper zoo01.example.com:2181/kafka-cluster 
--alter -- topic my-topic --partitions 16 

WARNING: If partitions are increased for a topic that has a key, 

the partition logic or ordering of the messages will be affected 

Adding partitions succeeded! 

# 


和 减少 分 区 数量 


我 们 无 法 减少 主题 的 分 区 数量 。 因 为 如 果 删 除了 分 区 ， 分 区 里 的 数据 也 一 并 
被 删除 ， 导 致 数据 不 一 致 。 我 们 也 于 沙特 这 此 数据 分 配给 其 他 分 区 ， 因 为 这 
样 做 很 难 ， 而 且 会 出 现 消息 乱 序 。 所 以 ， 如 果 一 定 要 减少 分 区 数量 ， 只 能 删 
除 整个 主题 ， 然 后 重新 创建 它 。 


9.1.3 ”删除 主题 


如 果 一 个 主题 不 再 被 使 用 ， 只 要 它 还 存在 于 集群 里 ， 就 会 占用 一 定数 量 的 人 磁盘 空 
间 和 文件 句柄 。 把 它 删除 就 可 以 释放 被 占用 的 资 筑 源 。 为 了 能 够 手 除 主题 ，broker 
的 delete.topic.enable 参数 必须 被 设置 为 true 。 如 果 该 参数 被 设 为 
false ， 删 除 主题 的 请 求 会 被 忽略 。 


做 、 删除 主题 会 丢弃 主题 里 的 所 有 数据 。 这 是 一 个 不 可 逆 的 操作 ， 所 以 
在 执行 时 要 十 分 小 心 。 


示例 : 删除 my-topic 主题 。 


# kafka-topics.sh --zookeeper zoo1.example.com:2181/kafka-cluster 
--delete -- topic my-topic 

Topic my-topic is marked for deletion. 

Note: This will have no impact if delete.topic,.enable is not set 
to true， 

# 


9.1.4” 列 出 集群 里 的 所 有 主题 


可 以 使 用 主题 工具 列 出 集群 里 的 所 有 主题 。 每 个 主题 占用 一 行 输出 ， 主 题 之 间 没 
有 特定 的 顺序 。 


示例 : 列 出 集群 里 的 所 有 主题 。 


# kafka-topics.sh --zookeeper zoo1.example.com:2181/kafka-cluster 
--list 

my-topic - marked for deletion 

other-topic 


# 


9.1.5” 列 出 主题 详细 信息 


主题 工具 还 和 0 信息 里 包含 了 分 区 数量 、 主 题 的 覆盖 配 
置 以 及 每 个 分 区 的 副本 清单 。 如 果 通 过 - -topic 参数 指 定 特 定 的 主题 ， 就 可 以 
只 列 出 指定 主题 的 详细 信息 。 


示例 : 列 出 集群 里 所 有 主题 的 详细 信息 。 


# kafka-topics.sh --zookeeper zoo1.example.com:2181/kafka-cluster --describe 


Topic:other-topic PartitionCount:8 ReplicationFactor:2 Configs: 
Topic:other-topic Partition: 0 Replicas: 1,0 Isr: 1,0 
Topic:other-topic Partition: 1 A Replicas: 0,1 Isr: 0,1 
Topic:other-topic Partition: 2 Replicas: 1,0 Isr: 1,0 
Topic:other-topic Partition: 3 Replicas: 0,1 Isr: 0,1 
Topic:other-topic Partition: 4 Replicas: 1,0 Isr: 1,0 
Topic:other-topic Partition: 5 Replicas: 0,1 Isr: 0,1 
Topic:other-topic Partition: 6 Replicas: 1,0 Isr: 1,0 
Topic:other-topic Partition: 7 Replicas: 0,1 Isr: 0,1 
# 


describe 命令 还 提供 了 一 些 参数 ， 用 于 过 滤 输 出 结果 ， 这 在 诊断 集群 问题 时 会 
很 有 用 。 不 要 为 这 些 参数 指定 - -topic 参数 (因为 这 些 参数 的 目的 是 为 了 找 出 
集群 里 所 有 满足 条 件 的 主题 和 人 区 ) 。 这些 参 数 也 无 法 与 1ist 命令 一 起 使 用 
(最 后 一 部 分 会 详细 说 明 原 因 ) 。 


使 用 - -topics-with-overrides 参数 可 以 找 出 所 有 包含 覆盖 配置 的 主题 ， 它 
只 会 列 出 包含 了 与 集群 不 一 样 配置 的 主题 。 


有 两 个 参数 可 用 于 找 出 有 问题 的 分 区 。 使 用 - -under-replicated- 
partitions 参数 可 以 列 出 所 有 包含 不 同步 副本 的 分 区 。 使 用 - - 
unavailable-partitions 参数 可 以 列 出 所 有 没有 首领 的 分 区 ， 这 些 分 区 已 
经 处 于 离线 状态 ， 对 于 生产 者 和 消费 者 来 说 是 不 可 用 的 。 


示例 : 列 出 包含 不 同步 副本 的 分 区 。 


# kafka-topics.sh --zookeeper zoo1.example.com:2181/Kkafka-cluster 
--describe --under-replicated-partitions 


Topic: other-topic Partition: 2 Leader: 0 Replicas: 1,0 
Isr: 0 
Topic: other-topic Partition: 4 Leader: 0 Replicas: 1,0 
Isr: 0 


9.2 ”消费 者 群 组 


在 Kafka 里 ， 有 两 个 地 方 保存 着 消费 者 群 组 的 信息 。 对 于 旧版 本 的 消费 者 来 说 ， 


它们 的 信息 保存 在 于 Zookeeper 上 ; 对 于 新 版 本 的 消费 者 来 说 ， E 们 的 信号 保存 在 
broker 上 。kafka-consumer-groups.sh 工具 可 以 用 于 列 出 上 述 两 种 消费 者 群 组 。 它 
也 可 以 用 于 删除 消费 者 群 组 和 偏 移 量 信息 ， 不 过 这 个 功能 仅 限 于 旧版 本 的 消费 者 
群 组 (信息 保存 在 Zookeeper 上 ) 。 在 对 旧版 本 的 消费 者 群 组 进行 操作 时 ， 需 要 


通过 - -zookeeper 参数 指定 Zookeeper 的 地 址 ; 在 对 新 版 本 的 消费 者 群 组 进行 
操作 时 ， 则 需要 使 用 - -bootstrap-server 参数 指定 broker 的 主机 名 和 端口 。 


9.2.1 列 出 并 描述 群 组 


在 使 用 旧版 本 的 消费 者 客户 端 时 ， 可 以 使 用 - -zookeeper 和 - -List 参数 列 出 
消费 者 群 组 ;在 使 用 新 版 本 的 消费 者 客户 端 时 ， 则 要 使 用 - -bootstrap - 


server、--list 和--new-consumer 参数 。 


示例 : 列 出 旧版 本 的 消费 者 群 组 。 


# kafka-consumer-groups.sh --zookeeper 
zo01.example.com:2181/kafka-cluster --list 
console-consumer-79697 


myconsumer 
# 


示例 : 列 出 新 版 本 的 消费 者 群 组 。 


# kafka-consumer-groups.sh --new-consumer --bootstrap-server 
kafkai.example.com:9092/kafka-cluster --list 
kafka-python-test 

my-new-consumer 

# 


对 于 列 出 的 任意 群 组 来 说 ， 使 用 - -describe 代替 - -1ist ， 并 通过 - -group 


指定 特定 的 群 组 ， 就 可 以 获取 该 群 组 的 详细 信息 。 它 会 列 出 群 组 里 所 有 主题 的 信 
息 和 每 个 分 区 的 偏 移 量 。 


示例 : 获取 旧版 本 消费 者 群 组 testgroup 的 详细 信息 。 


# kafka-consumer-groups.sh --zookeeper zoo01.example.com:2181/kafka-cluster 
--describe --group testgroup 


GROUP TOPIC PARTITION 
CURRENT-OFFSET LOG-END-OFFSET LAG OWNER 

myconsumer my-topic 0 

1688 1688 0 
myconsumer_host1.example.com-1478188622741-7dab5ca7-0 

myconsumer my-topic 1 

1418 1418 0 
myconsumer_host1.example.com-1478188622741-7dab5ca7-0 

myconsumer my-topic 2 

1314 1315 1 


myconsumer_host1.example.com-1478188622741-7dab5ca7-0 


myconsumer 
2012 


myconsumer_ 


myconsumer 
1089 


myconsumer_ 


myconsumer 
1429 


myconsumer_ 


myconsumer 
1634 


myconsumer_ 


myconsumer 
2261 


myconsumer_ 
# 


2012 


host1.example. 


1089 


host1.example. 


1432 


host1.example. 


1634 


host1.example. 


2261 


host1.example. 


my-topic 
0 


my-topic 
0 


my-topic 
3 


my-topic 
0 


my-topic 
0 


输出 结果 里 包含 了 如 表 9-1 所 示 的 字段 。 
表 9-1: 输出 结果 中 的 字段 


com-1478188622741-7dab5ca7-0 


com-1478188622741-7dab5ca7-0 


com-1478188622741-7dab5ca7-0 


com-1478188622741-7dab5ca7-0 


com-1478188622741-7dab5ca7-0 


PARTITION 


CURRENT- 
OFFSET 


LOG-END- 
OFFSET 
. 


OWNER 


了 PP 之 


日 最 近 提 交 的 1 


i 移 量 ， 也 就 是 消 


当前 高 水 位 偏 
被 提交 到 集群 的 1 


有 移 量 


， 也 就 是 最 近 一 个 被 读 取消 符 
i 移 量 


区 的 消 


= 

化 

语 
0° 


tl 
a 
D> 
下 


FE 在 读 取 该 分 


9.2.2 ”删除 群 组 


只 有 旧版 本 的 消费 者 客户 端 才 文 持 删 除 群 组 的 操作 。 删 除 群 组 操作 将 从 
Zookeeper 上 移 除 整个 群 组 ， 包 括 所 有 En 的 偏 移 量 。 在 执行 该 操作 之 前 ， 必 
须 关 闭 所 有 的 消费 者 。 如 果 不 先 执 行 这 一 步 ， 条 能 会 导 到 消费 着 由 现下 可 预测 的 
行为 ， 因 为 群 组 的 元 数据 已 经 从 Zookeeper 上 移 除了 。 


示例 : 删除 消费 者 群 组 testgroup 。 


# kafka-consumer-groups.sh --zookeeper 
zo01.example.com:2181/kafka-cluster --delete --group testgroup 
Deleted all consumer group information for group testgroup in 
zookeeper. 

# 


该 命令 也 可 以 用 于 在 不 删除 整个 群 组 的 情况 下 删除 单个 主题 的 偏 移 量 。 再 次 强 
a 进行 删除 操作 之 前 ， 需 要 先 关 闭 消费 者 ， 或 者 不 要 让 它们 读 取 即将 被 删除 
9 主题 。 


示例 : 从 消费 者 群 组 testgroup 里 删除 my-topic 主题 的 偏 移 量 。 


# kafka-consumer-groups.sh --zookeeper 
zo0o1.example.com:2181/kafka-cluster --delete --group testgroup 
--topic my-topic 

Deleted consumer group information for group testgroup topic 
my-topic in Zoo keeper. 

# 


9.2.3 ” 偏 移 量 管理 


除了 可 以 显示 和 删除 消费 者 群 组 《使 用 了 旧版 本 消费 者 客户 端 ) 的 偏 移 量 外 ， 还 
可 以 获取 偏 移 量 ， 并 保存 批 次 的 最 新 偏 移 量 ， 从 而 实现 偏 移 量 的 重 置 。 在 需要 重 
新 恋 取 消 思 或 者 因 消费 痢 无 法 正 划 处 理 消 轧 (比如 包含 了 非法 格式 的 消息 ， 和 需要 
跳 过 偏 移 量 时 ， 需 要 进行 偏 移 量 重 置 。 


A 管理 已 经 提交 到 Kafka 的 偏 移 量 


目前 ， 还 没有 工具 可 以 用 于 管理 由 消费 者 客户 端 提 区 到 Kafka 的 偏 移 量 ， 管 
理 功 能 只 对 提交 到 0 的 仿 移 量 可 用 。 另外 ， 为 了 能 够 管理 提交 到 
Kafka 的 消费 者 群 组 偏 移 量 ， 需 要 在 客户 端 使 用 相应 的 API 来 提交 群 组 的 偏 


移 量 。 


01. 


02. 


导出 偏 移 量 


Kafka 没有 为 导出 偏 移 量 提 供 现 成 的 脚本 ， 不 过 可 以 使 用 kafka-run-class.sh 
脚本 调用 底层 的 Java 类 来 实现 导出 。 在 导出 偏 移 量 时 ， 会 生成 一 个 文件 ， 文 
件 里 包含 了 3 分 区 和 俩 移 量 的 信 上 息 。 偏 移 量 信息 以 一 种 导入 工具 能 够 识别 的 格 
式 保存 在 文件 里 。 每 个 分 区 在 文件 里 占用 一 行 ， 格 式 

为 : /consumers/GROUPNAME/offsets/topic/TOPICNAME/PARTITIONID- 
0:OFFSET ° 


示例 : 将 群 组 testgroup 的 偏 移 量 导出 到 offsets 文件 里 。 


# kafka-run-class.sh kafka.tools.Exportzkoffsets 
--Zkconnect zoo1.example.com:2181/kafka-cluster --group testgroup 
--output-file offsets 

# cat offsets 
/consumers/testgroup/offsets/my-topic/0:8905 
/consumers/testgroup/offsets/my-topic/1:8915 
/consumers/testgroup/offsets/my-topic/2:9845 
/consumers/testgroup/offsets/my-topic/3:8072 
/consumers/testgroup/offsets/my-topic/4:8008 
/consumers/testgroup/offsets/my-topic/5:8319 
/consumers/testgroup/offsets/my-topic/6:8102 
/consumers/testgroup/offsets/my-topic/7:12739 

# 


导入 偏 移 量 


偏 移 量 导入 工具 与 导出 工具 做 的 事情 刚好 相反 ， 它 使 用 之 前 导出 的 文件 来 重 
置 消费 者 群 组 的 偏 移 量 。 一 般 情况 下 ， 我 们 会 导出 消费 者 群 组 的 当前 偏 移 
量 ， 并 将 导出 的 文件 复制 一 份 (这 样 就 有 了 二 个 备份 ) ， 然 后 修改 复制 文件 
里 的 偏 移 量 。 这 里 要 注意 ， 在 使 用 导入 命令 时 ， 不 需要 使 用 - -group 参 
数 ， 因 为 文件 里 已 经 包含 了 消费 者 群 组 的 名 字 。 


从、 先 关闭 消费 者 


在 导入 偏 移 量 之 前 ， 必 须 先 关闭 所 有 的 消费 着。 如 琳 酒 费 者 群 组 处 
wt 它们 不 会 读 取 新 的 偏 移 量 ， 反 而 有 可 能 将 导入 的 偏 移 量 


示例 : 从 offsets 文件 里 将 偏 移 量 导入 到 消费 者 群 组 testgroup。 


# kafka-run-class.sh kafka.tools.ImportzZkoffsets --zkconnect 
zoo1.example.com:2181/kafka-cluster --input-file offsets 
# 


| 


9.3 ”动态 配置 变更 


我 们 可 以 在 集群 处 于 运行 状态 时 有 覆 盖 主 题 配置 和 客户 端的 配额 参数 。 我 们 打算 在 
未 来 增加 更 多 的 动态 配置 参数 ， 这 也 是 为 什么 这 些 参数 被 单独 放 进 了 kafka- 
configs.sh。 这 样 就 可 以 为 特定 的 主题 和 客户 端 指 定 配置 参数 。 一 旦 设置 完毕 ， 它 
们 就 成 为 集群 的 永久 配置 ， 被 保存 在 Zookeeper 上 ，broker 在 启动 时 会 读 取 它 

们 。 不 管 是 在 工具 里 还 是 文档 里 ， 它 们 所 说 的 动态 配置 参数 都 是 基于 “主题 ”实例 
或 者 “客户 端 ? 实 例 的 ， 都 是 可 以 被 “覆盖 ”的 。 


与 之 前 介绍 的 工具 一 样 ， 这 里 也 需要 通过 - -zookeeper 参数 提供 Zookeeper 集 
群 的 连接 字符 串 。 在 下 面 的 例子 里 ，Zookeeper 的 连接 字符 串 


是 “Zo01.example.com:2181/kafka-cluster”。 


9.3.1 覆盖 主题 的 默认 配置 


为 了 满足 不 同 的 使 用 场景 ， 主 题 的 很 多 参数 都 可 以 进行 单独 的 设置 。 它 们 大 部 分 
都 有 broker 级 别 的 默认 值 ， 在 没有 被 覆盖 的 情况 下 使 用 默认 值 。 


更 改 主题 配置 的 命令 格式 如 下 。 


kafka-configs.sh --zookeeper zool1.example.com:2181/kafka-cluster 
--alter --entity-type topics --entity-name <topic name> 
--add-config <key>=<value>[,<key>=<value>...] 


可 用 的 主题 配置 参数 ( 键 ) 如 表 9-2 所 示 。 
表 9-2: 可 用 的 主题 配置 参数 


， 如 果 被 设置 为 compact ， 只 有 最 新 包含 了 指定 key 的 消息 
下 会 被 保留 下 来 (压缩 日 志 ) ， 其 他 的 被 丢弃 掉 


broker 在 将 消息 批 次 写 入 磁盘 时 
支持 “gzip”、“snappy” ,和 91z4” 


compression.type 


delete.retention.ms | 和 留 多 人 ， 


以 ms 为 单位 。 该 
型 的 主题 有 效 


心太 


file.delete.delay.ms 


志 卢 段 和 索引 之 前 可 以 等 竺 多 长 时 间 ， 以 
flush.messages 


和 息 才 能 将 它们 刷新 到 磁盘 


新 到 磁盘 之 前 可 以 等 


竺 多 长 时 间 ， 以 ms 为 单 
index.interval.bytes 


9 两 个 索引 2 
max.message.bytes 


间 能 够 容纳 的 消 ， 


message.format.version 


/区 


\ 写 入 人 磁盘 时 所 使 用 的 消息 格式 ， 必 须 是 有 
本 号 (比如 “0.10.0”) 


message.timestamp.difference.max.ms 


自 带 的 时 间 稚 和 broker 收 到 消息 时 的 时 间 惟 之 间 最 大 
以 ms 为 单位 % 该 参数 只 


在 
messsage.timestamp.type 被 设 大 


yJ Create-Time 时 有 


message.timestamp.type 


在 将 消息 写 入 磁盘 时 使 用 
值 ， 其 t 中 CreateTime 指 
LogAppendTime 指 消 


min.cleanable.dirty.ratio 


志 压 缩 器 压缩 分 区 的 志 片 段 数 与 总 
志 分 段 数 之 间 的 比例 > 有 
的 主题 有 效 

min.insync.replicas 


压缩 辣 志 类 型 


preallocate 如 果 被 设 为 true 志 片 段 预 分 配 空 间 
retention.bytes 主题 能 够 保留 的 消息 量 ， 以 字 市 为 单位 


es a 用 \ 


segment.bytes 志 片 段 的 消息 字 节 数 


segment.index.bytes 六 的 最 大 索引 字数 


em 日 志 片断 时 ， 在 segment .ms 基础 上 增加 的 随机 毫秒 数 
Se es Ca 


unclean.leaderelection.enable 如 果 被 设 为 true ， 不 彻底 的 首领 选择 无 效 


示例 : 将 主题 my-topic 的 消息 保留 时 间 设 为 1 个 小 时 (3 600 000ms) 。 


# kafka-configs.sh --zookeeper zoo01.example.com:2181/kafka-cluster 
--alter -- entity-type topics --entity-name my-topic --add-config 
retention.ms=3600000 

Updated config for topic: "my-topic". 

# 


9.3.2 ”覆盖 客户 端的 默认 配置 


对 于 Kafka 客户 端 来 说 ， 只 能 和 窗 盖 生产 者 配额 和 消费 者 配额 参数 。 这 两 个 配额 都 
以 字 节 每 秒 为 单位 ， 表示 客户 疹 在 每 个 broker 上 的 生产 速率 或 消费 速率 。 也 就 是 
说 ， 如 果 集 群 里 有 5 个 broker， 生产 者 的 配额 是 10MB/s， 那 么 它 可 以 以 10MB/s 
的 速率 在 单个 broker 上 生成 数据 ， 总 共 的 速率 可 以 达到 50MB/s。 


欠 客户 端 ID 与 消费 者 群 组 


客 三 端 ID 可 以 与 消费 音 群 组 的 名 字 人 不 一 样 。 消费 首 可 以 有 目 己 的 ID， 因 此 
不 同 群 组 里 的 消费 者 可 能 具有 相同 的 ID 。 在 为 消费 者 客户 端 设 置 ID 时， 最 
好 使 用 能 够 表明 它们 所 属 群 组 的 标识 符 ， 这 样 便于 群 组 共享 配额 ， 从 日 志 里 
查找 负责 请 求 的 群 组 也 更 容易 一 些 。 


更 改 客户 端 配置 的 命令 格式 如 下 : 


kafka-configs.sh --zookeeper Zoo1.example.com:2181/Kafka-cluster 
--alter -- entity-type clients --entity-name <client ID> 
--add-config <key>=<value>[,<key>=<value>...] 


可 用 的 客户 端 配置 参数 ( 键 ) 如 表 9-3 所 示 。 
表 9-3: 可 用 的 客户 端 配置 参数 


配置 项 描述 


producer_bytes_rate 单个 4 莉 每 秒 钟 可 以 往 单 个 broker 上 


注 每 秒 以 从 单个 broker 读 取 的 消息 


9.3.3” 列 出 被 覆盖 的 配置 


使 用 命令 行 工 具 te ee he 主题 或 客户 端的 配 
置 。 与 其 他 工具 类 似 ， 这 个 功能 - -describe 命令 来 实现 。 


示例 : 列 出 主题 my-topic 所 有 被 覆盖 的 配置 。 


# kafka-configs.sh --zookeeper zoo01.example.com:2181/kafka-cluster 
--describe -- entity-type topics --entity-name my-topic 

Configs for topics:my-topic are 
retention.ms=3600000, segment .ms=3600000 


# 


A 只 能 显示 主题 的 覆盖 配置 


这 个 命令 只 能 用 于 显示 被 覆盖 的 配置 ， 不 包含 集群 的 默认 配置 。 目 前 还 无 法 
通过 Zookeeper 或 Kafka 实现 动态 地 获取 broker 本 号 的 配置 。 也 就 是 说 ， 在 
进行 自动 化 时 ， 如 果 要 使 用 这 个 工具 来 获得 主题 和 客户 端的 配置 信息 ， 必 须 
同时 为 它 提供 集群 的 默认 配置 信息 。 


9.3.4” 移 除 被 覆盖 的 配置 


动态 的 配置 完全 可 以 被 移 除 ， 从 而 恢复 到 集群 的 默认 配置 。 可 以 使 用 - -alter 
命令 和 - -delete-config 参数 来 删除 被 覆盖 的 配置 。 


示例 : 删除 主题 my-topic 的 retention .ms 履 盖 配置 。 


# kafka-configs ,sh --zookeeper zoo01.example.com:2181/kafka-cluster 
--alter -- entity-type topics --entity-name my-topic 


--delete-config retention.ms 
Updated config for topic: "my-topic". 
# 


9.4 分 区 管理 


Kafka 工具 提供 了 两 个 脚本 用 于 管理 分 区 ， 一 个 用 于 重新 选举 首领 ， 男 一 个 用 于 
将 分 区 分 配给 broker。 结 合 使 用 这 两 个 工具 ， 就 可 以 实现 集群 流量 的 负载 均衡 。 


9.4.1 首选 的 首领 选举 


第 6 章 提 到 ， 使 用 多 个 分 区 副本 可 以 提升 可 靠 性 。 不 过 ， 只 有 其 中 的 一 个 副本 可 
以 成 为 分 区 首领 ， 而 且 只 有 首领 所 在 的 broker 可 以 进行 生产 和 消费 活动 。Kafka 
将 副本 清单 里 的 第 一 个 同步 副本 选 为 首领 ， 但 在 关闭 并 重启 broker 之 后 ， 并 不 会 
目 动 恢复 原 和 多 首领 的 身份 。 


处 自动 首领 再 均衡 


broker 有 一 个 配置 可 以 用 于 启用 上 自动 首领 再 均衡 ， 不 过 到 目前 为 止 ， 并 不 建 
议 在 生产 环境 使 用 该 功能 。 自 动 均衡 会 带 来 严重 的 性 能 问题 ， 在 大 型 的 集群 
里 ， 它 会 造成 客户 端 流量 的 长 时 间 停 顿 。 

通过 触发 首选 的 副本 选举 ， 可 以 让 broker 重新 获得 首领 。 当 该 事件 被 触发 时 ， 集 
群 控 制 器 会 为 分 区 重新 选择 理想 的 首领 。 选 举 过 程 一 般 不 会 造成 负面 的 影响 ， 因 
为 客户 端 可 以 自动 跟踪 首领 的 变化 。 也 可 以 通过 kafka-preferred-replica-election.sh 
工具 手动 触发 选举 。 


示例 : 在 一 个 包含 了 1 个 主题 和 8 个 分 区 的 集群 里 局 动 首 选 的 副本 选举 。 


# kafka-preferred-replica-election.sh --zookeeper 
zo01.example.com:2181/kafka-cluster 

Successfully started preferred replica election for partitions 
Set([my-topic,5], [my-topic,0], [my-topic,7], [my-topic,4], 
[my-topic, 6], [my-topic,2], [my-topic, 3], [my-topic, 1]) 

# 


| 


因为 集群 包含 了 大 量 的 分 区 ， 首 选 的 副本 选举 有 可 能 无 法 正常 进行 。 在 进行 选举 
时 ， 集 群 的 元 数据 必须 被 写 到 Zookeeper 的 节点 上 ， 如 果 元 数据 超过 了 节点 允许 

的 大 小 (默认 是 1MB) ， 那 么 选举 就 会 失败 。 这 个 时 候 ， 需 要 将 分 区 清单 的 信息 
写 到 一 个 JSON 文件 里 ， 并 将 请 求 分 为 多 个 步骤 进行 。JSON 文件 的 格式 如 下 : 


"partitions": [ 


"partition": 1, 
"topic": "foo" 


"partition": 2, 
"topic": "foobar" 


示例 : 通过 在 partitions.json 文件 里 指定 分 区 清单 来 启动 副本 选举 。 


# kafka-preferred-replica-election.sh --zookeeper 
zo01.example.com:2181/kafka-cluster --path-to-json-file 
partitions,json 

Successfully started preferred replica election for partitions 
Set([my-topic,1], [my-topic,2], [my-topic,3]) 

# 


9.4.2 ”修改 分 区 副本 


在 某 些 时 候 ， 可 能 需要 修改 分 区 的 副本 。 以 下 是 一 些 需 要 修改 分 区 副本 的 场景 。 


。 主题 分 区 在 整个 集群 里 的 不 均衡 分 布 造成 了 集群 负载 的 不 均衡 ° 
。 broker 离线 造成 分 区 不 同步 8 
。 新 加 入 的 broker 需要 从 集群 里 获得 负载 。 


可 以 使 用 kafka-reassign-partitions.sh 工具 来 修改 分 区 。 使 用 该 工具 需要 经 过 两 个 
步骤 : 第 一 步 ， 根 据 broker 清单 和 主题 清单 生成 一 组 迁移 步骤 ;第 二 步 ， 执 行 这 
些 迁 移 步 骤 。 第 三 个 步骤 是 可 选 的 ， 也 就 是 可 以 使 用 生成 的 迁移 步骤 验证 分 区 重 
分 配 的 进度 和 完成 情况 。 


为 了 生成 迁移 步 又 ， 需 要 先 创 建 一 个 包含 了 主题 清单 的 JSON 文件 ， 文 件 格式 如 
下 (目前 的 版 本 号 都 是 1) 


"topics":; [ 


{ 


] 
{ 


} 
], 


"version": 1 


"topic": "foo" 


"topic":; "foo1" 


示例 : 为 topics.json 文件 里 的 主题 生成 迁移 步 台 ， 以 便 将 这 些 主题 迁移 到 broker 0 
和 broker1 上。 


# kafka-reassign-partitions.sh --zookeeper 
zo01.example.com:2181/kafka-cluster 

--generate --topics-to-move-json-file topics.json --broker-list 0,1 
Current partition replica assignment 


{"version":1,"partitions":[{"topic":"my-topic","partition":5,"replicas": 
[0,1]1}, 

{"topic":"my-topic", "partition":10,"replicas":[1,0]},{"topic":"mytopic"," 
partition":1,"replicas":[0,1]},{"topic":"my-topic","partition":4,"repli 
cas":[1,0]},{"topic":"my-topic","partition":7,"replicas":[0,1]}, 

{"topic" p "mytopic", 1 
partition":6,"replicas":[1,0]},{"topic":"my-topic","partition": 
3,"replicas":[0,1]},{"topic":"my-topic", "partition":15,"replicas":[0,1]}, 
{"topic":"my-topic", "partition":0,"replicas":[1,0]},{"topic":"mytopic"," 
partition":11,"replicas":[0,1]},{"topic":"my-topic", "partition":8,"repli 
cas":[1,0]},{"topic":"my-topic", "partition":12,"replicas":[1,0]}, 
{"topic" . "mytopic", mh 
partition":2,"replicas":[1,0]},{"topic":"my-topic","partition": 

13, "replicas":[0,1]},{"topic":"my-topic", "partition":14,"replicas":[1,0]}, 
{"topic":"my-topic", "partition":9,"replicas":[0,1]}]} 

Proposed partition reassignment configuration 


{"version":1,"partitions":[{"topic":"my-topic","partition":5,"replicas": 
[0,1]1}, 

{"topic":"my-topic", "partition":10,"replicas":[1,0]},{"topic":"mytopic"," 
partition":1,"replicas":[0,1]},{"topic":"my-topic","partition":4,"repli 
cas":[1,0]},{"topic":"my-topic","partition":7,"replicas":[0,1]}, 

{"topic" . "mytopic", Ll 

partition":6,"replicas":[1,0]},{"topic":"my-topic", "partition": 

15, "replicas":[0,1]},{"topic":"my-topic", "partition":0,"replicas":[1,0]}, 
{"topic":"my-topic", "partition":3,"replicas":[0,1]},{"topic":"mytopic"," 
partition":11,"replicas":[0,1]},{"topic":"my-topic", "partition":8,"repli 
cas":[1,0]},{"topic":"my-topic", "partition":12,"replicas":[1,0]}, 
{"topic" "mytopic", mh 


partition":13,"replicas":[0,1]},{"topic":"my-topic", "partition": 
2,"replicas":[1,0]},{"topic":"my-topic", "partition":14,"replicas":[1,0]}, 
{"topic":"my-topic", "partition":9,"replicas":[0,1]}]} 

# 


broker 的 ID 以 逗号 分 隔 ， 并 作为 参数 提供 给 命令 行 工具 。 这 个 工具 会 在 标准 控制 


台 上 和 输出 两 个 JSON 对 象 ， 分 别 描述 了 当前 的 分 区 分 配 情况 以 及 建议 的 分 区 分 配 
方案 。 这 些 JSON 对 象 的 格式 如 下 : {"partitions": [{"topic":， "my- 
topic", "partition": 0，" replicas"”: [1,2] }], "version":1} 


O 〇 


可 以 把 第 一 个 JSON 对 象 保存 起 来 ， 以 便 在 必要 的 时 候 进 行 回 深 。 第 二 个 JSON 
对 象 应 该 被 保存 到 另 一 个 文件 里 ， 作 为 kafka-reassign-partitions.sh 工具 的 输入 来 
执行 第 二 个 步骤 。 


示例 : 使 用 reassign.json 来 执行 建议 的 分 区 分 配方 案 。 


# kafka-reassign-partitions.sh --zookeeper 
zo01.example.com:2181/kafka-cluster --execute 
--reassignment-json-file reassign.json 
Current partition replica assignment 


{"version":1,"partitions":[{"topic":"my-topic","partition":5,"replicas": 
[90,11}, 

{"topic":"my-topic", "partition":10,"replicas":[1,0]},{"topic":"mytopic"," 
partition":1,"replicas":[0,1]},{"topic":"my-topic","partition":4,"repli 
cas":[1,0]},{"topic":"my-topic","partition":7,"replicas":[0,1]}, 

{"topic" : "mytopic", mh 

partition":6,"replicas":[1,0]},{"topic":"my-topic", "partition": 
3,"replicas":[0,1]},{"topic":"my-topic", "partition":15,"replicas":[0,1]}, 
{"topic":"my-topic", "partition":0,"replicas":[1,0]},{"topic":"mytopic"," 
partition":11,"replicas":[0,1]},{"topic":"my-topic", "partition":8,"repli 
cas":[1,0]},{"topic":"my-topic", "partition":12,"replicas":[1,0]}, 
{"topic" "mytopic", Li 

partition":2,"replicas":[1,0]},{"topic":"my-topic", "partition": 

13, "replicas":[0,1]},{"topic":"my-topic","partition":14,"replicas":[1,0]}, 
{"topic":"my-topic", "partition":9,"replicas":[0,1]}]} 


Save this to use as the --reassignment-json-file option during 

rollback 

Successfully started reassignment of partitions {"version":;1,"partitions": 
[{"topic":"my-topic","partition":5,"replicas":[0,1]},{"topic":"mytopic"," 
partition":0,"replicas":[1,0]},{"topic":"my-topic","partition":7,"repli 
cas":[0,1]},{"topic":"my-topic", "partition":13,"replicas":[0,1]}, 
{"topic" "mytopic", 1 

partition":4,"replicas":[1,0]},{"topic":"my-topic", "partition": 

12, "replicas":[1,0]},{"topic":"my-topic","partition":6,"replicas":[1,0]}, 
{"topic":"my-topic", "partition":11,"replicas":[0,1]},{"topic":"mytopic"," 
partition":10,"replicas":[1,0]},{"topic":"my-topic", "partition":9,"repli 
cas":[0,1]},{"topic":"my-topic","partition":2,"replicas":[1,0]}, 

{"topic" : "mytopic", mh 


partition":14,"replicas":[1,0]},{"topic":"my-topic", "partition”: 
3,"replicas":[0,1]},{"topic":"my-topic", "partition":1,"replicas":[0,1]}, 
{"topic":"my-topic", "partition":15,"replicas":[0,1]},{"topic":"my-topic", 
"partition":8,"replicas":[1,0]}]} 

# 


~ 


ep 


该 命令 会 将 指定 分 区 的 副本 重新 分 配 到 新 的 broker 上 。 集 群 控制 器 通过 为 每 个 


区 添加 新 副本 实现 重新 分 配 〈 增 加 复制 系数 ) 。 新 的 副本 将 从 分 区 的 首领 那里 
制 所 有 数据 。 根 据 分 区 大 小 的 不 同 ， 复 制 过 程 可 能 需要 人 花 一 些 时 间 ， 因 为 数据 
通过 网 络 复制 到 新 副本 上 的 。 在 复制 完成 之 后 ， 控 制 器 将 旧 副 本 从 副本 清单 里 移 
除 (恢复 到 原先 的 复制 系数 ) 。 


(oul 


和 为 重新 分 配 副本 进行 网 络 优化 


如 果 要 从 单个 broker 上 移 除 多 个 分 区 ， 比 如 将 broker 移出 集群 ， 那 么 在 重新 
分 配 副本 之 前 最 好 先 关 闭 或 者 重启 broker。 这 样 ， 这 个 broker 就 不 再 是 任何 
一 个 分 区 的 首领 ， 它 的 分 区 就 可 以 被 分 配给 集群 里 的 其 他 broker (只 要 没有 


局 用 目 动 首领 选举 ) 。 这 可 以 显著 提升 重 分 配 的 性 能 ， 并 减少 对 集群 的 影 
啊 ， 因 为 复制 流量 将 会 被 分 发 给 多 个 broker。 


在 重 分 配 进 行 过 程 中 或 者 完成 之 后 ， 可 以 使 用 kafka-reassign-partitions.sh 工具 验 
证 重 分 配 的 状态 。 它 可 以 显示 重 分 配 的 进度 、 已 经 完成 重 分 配 的 分 区 以 及 错误 信 
息 (如 果 有 的 话 ) 。 为 了 做 到 这 一 点 ， 需 要 在 执行 过 程 中 使 用 JSON 对 象 文件 。 


示例 : 验证 reassign.json 文件 里 指定 的 分 区 重 分 配 情 况 。 


# kafka-reassign-partitions.sh --zookeeper 
zoo1.example.com:2181/kafka-cluster --verify 
--reassignment-json-file reassign.json 
Status of partition reassignment: 


Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
Reassignment 
# 


partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 
partition 


[my-topic,5] completed successfully 
[my-topic,0] completed successfully 
[my-topic,7] completed successfully 
[my-topic,13] completed successfully 
[my-topic,4] completed successfully 
[my-topic,12] completed successfully 
[my-topic,6] completed successfully 
[my-topic,11] completed successfully 
[my-topic,10] completed successfully 
[my-topic,9] completed successfully 
[my-topic,2] completed successfully 
[my-topic,14] completed successfully 
[my-topic,3] completed successfully 
[my-topic,1] completed successfully 
[my-topic,15] completed successfully 
[my-topic,8] completed successfully 


| 
从 分 批 重 分 配 


分 区 重 分 配对 集群 的 性 能 有 很 大 影响 ， 因 为 它 会 引起 内 存 页 缓存 发 生变 化 ， 
0 
影响 降 到 最 低 。 


9.4.3 ”修改 复制 系数 


分 区 重 分 配 工具 提供 了 一 些 特性 ， 用 于 改变 分 区 的 复制 系数 ， 这 些 特性 并 没有 在 
文档 里 说 明 。 如 果 在 创建 分 区 时 指定 了 错误 的 复制 系数 (比如 在 创建 主题 时 没有 
足够 多 可 用 的 broker) ,那么 就 有 必要 修改 它们 。 这 可 以 通过 创建 一 个 JSON 对 
象 来 完成 ， 该 对 象 使 用 分 区 重新 分 配 的 执行 步骤 中 使 用 的 格式 ， 显 式 指定 分 区 所 
需 的 副本 数量 。 和 集群 将 完成 重 分 配 过 程 ， 并 使 用 新 的 复制 系数 。 


例如 ， 假 设 主题 my-topic 有 一 个 分 区 ， 该 分 区 的 复制 系数 为 1。 


"partitions": [ 


"topic": "my-topic", 
"partition": 0, 
"replicas": [ 
1 
] 
} 


], 
"version": 1 


} 


在 分 区 重新 分 配 的 执行 步骤 中 使 用 以 下 JSON 可 以 将 复制 系数 改 为 2。 


"partitions": [ 


"partition": 0, 
"replicas": [ 
1, 
2 


. 
"topic": "my-topic" 


"version": 1 


也 可 以 通过 类 似 的 方式 减 小 分 区 的 复制 系数 。 

9.4.4” 转 储 日 志 片 段 

如 果 需 要 查看 某 个 等 定 放 已 的 内 容 ， 比 如 一 个 消费 者 无 法 处 理 的 “毒药 * 消 息 ， 可 
以 使 用 工具 来 解码 分 区 的 日 志 片 段 。 该 工具 可 以 让 你 在 不 读 取 消息 的 情况 下 查看 
消息 的 内 容 。 它 接受 一 个 以 逗号 分 隔 的 日 志 片 段 文 件 清单 作为 参数 ， 并 打印 出 每 
个 消息 的 概要 信息 和 数据 内 容 。 


示例 : 解码 日 志 片 段 00000000000052368601.log， 显 示 消 息 的 概要 信息 。 


# kafka-run-class.sh kafka.tools.DumpLogSegments --files 
00000000000052368601.1og 

Dumping 00000000000052368601. 10g 

Starting offset: 52368601 

offset: 52368601 position: © NoTimestampType: -1 isvalid:true 
payloadsize: 661 magic: 0 compresscodec: GZIPCompressionCodec crc: 
1194341321 

offset: 52368603 position: 687 NoTimestampType: -1 isvalid: true 
payloadsize:895 magic: 0 compresscodec: GZIPCompressionCodec crc: 
278946641 

offset: 52368604 position: 1608 NoTimestampType: -1 isvalid: true 
payloadsize:665 magic: 0 compresscodec: GZIPCompressionCodec crc: 
3767466431 

offset: 52368606 position: 2299 NoTimestampType: -1 isvalid: true 
payloadsize:932 magic: 0 compresscodec: GZIPCompressionCodec crc: 
2444301359 


示例 : 解码 日 志 片 段 00000000000052368601.log， 显 示 消 息 的 数据 内 容 。 


# kafka-run-class.sh kafka.tools.DumpLogSegments --files 
00000000000052368601.1og --print-data-1log 

offset: 52368601 position: © NoTimestampType: -1 isvalid: true 
payloadsize: 661 magic: © compresscodec: GZIPCompressionCodec crc: 
1194341321 payload: test message 1 

offset: 52368603 position: 687 NoTimestampType: -1 isvalid: true 
payloadsize:895 magic: 0 compresscodec: GZIPCompressionCodec crc: 
278946641 payload: test message 2 

offset: 52368604 position: 1608 NoTimestampType: -1 isvalid: true 
payloadsize:665 magic: 0 compresscodec: GZIPCompressionCodec crc: 
3767466431 payload: test message 3 

offset: 52368606 position: 2299 NoTimestampType: -1 isvalid: true 
payloadsize:932 magic: 0 compresscodec: GZIPCompressionCodec crc: 


2444301359 payload: test message 4 


个 工具 也 可 以 用 于 验证 日 志 片 段 的 索引 文件 。 索引 用 于 在 日 志 片 段 里 查找 消 

如 果 索 引文 件 损 坏 ， 会 导致 消费 者 在 读 取 消息 时 出 现 错误 。broker 在 不 正常 
| (比如 之 前 没有 正常 关闭 ) 时 会 自动 执行 这 个 验证 过 程 ， 不 过 也 可 以 手动 执 
行 它 。 有 两 个 参数 可 以 用 于 指定 不 同 程度 的 验证 ，- -Index-sanity-check 将 
会 检查 无 用 的 索引 ,而 - -verify-index-only 将 会 检查 索引 的 匹配 度 ， 但 不 
会 打印 出 所 有 的 索引 。 


示例 : 验证 日 志 片 段 00000000000052368601.log 索引 文件 的 正确 性 


# kafka-run-class.sh kafka.tools.DumpLogSegments --files 
00000000000052368601 .index, 00000000000052368601 .10g 
--index-sanity-check 

Dumping 00000000000052368601 .index 

00000000000052368601.index passed sanity check. 

Dumping 00000000000052368601. 10g 

Starting offset: 52368601 

offset: 52368601 position: © NoTimestampType: -1 isvalid: true 
payloadsize: 661 magic: © compresscodec: GZIPCompressionCodec crc: 
1194341321 


offset: 52368603 position: 687 NoTimestampType: -1 isvalid: true 
payloadsize:895 magic: 9 compresscodec: GZIPCompressionCodec crc: 
278946641 

offset: 52368604 position: 1608 NoTimestampType: -1 isvalid: true 
payloadsize:665 magic: 0 compresscodec: GZIPCompressionCodec crc: 
3767466431 


9.4.5 ”副本 验证 


分 区 复制 的 工作 原理 与 消费 者 客户 端 类 似 : 跟随 者 broker 定期 将 上 一 个 偏 移 量 到 
当前 偏 移 量 之 间 的 数据 复制 到 磁盘 上 。 如 采 复 制 停止 并 重启 ， 它 会 从 上 一 个 检查 
扩 继 续 复制 。 如 有 果 之 前 复制 的 日 志 片 段 被 删除 ， 跟 随 者 不 会 做 任何 补偿 。 


可 以 使 用 kafka-replica-verification.sh 工具 来 验证 集群 分 区 副本 的 一 致 性 。 它 会 从 
指定 分 区 的 副本 上 获取 消息 ， 并 检 查 所 有 副本 是 否 具有 相同 的 消息 。 我 们 必须 使 
用 正则 表达 式 将 生 台 它 。 如 果 不 提 供 这 个 参数 ， 它 会 验证 所 有 
的 主题 。 除 此 之 外 ， 还 需要 显 式 地 提供 broker 的 地 址 清单 。 


A 副本 验证 对 集群 的 影响 


副本 验证 工具 也 会 对 集群 造成 影响 ， 因 为 它 需 要 读 取 所 有 的 消息 。 男 外 ， 它 
的 读 取 过 程 是 并 行进 行 的 ， 所 以 使 用 的 时 候 要 小 心 。 


示例 : 对 broker 1 和 broker 2 上 以 my- 开头 的 主题 副本 进行 验证 。 


# kafka-replica-verification.sh --broker-list 

kafkai.example.com:9092, kafka2.example.com:9092 --topic-white-list 'my-.*' 
2016-11-23 18:42:08,838: verification process is started. 

2016-11-23 18:42:38,789: max lag is 9 for partition [my-topic,7] 

at offset 53827844 among 10 partitions 

2016-11-23 18:43:08,790: max lag is 9 for partition [my-topic,7] 

at offset 53827878 among 10 partitions 


9.5 ”消费 和 生产 


在 使 用 Kafka 时 ， 有 了 时候 为 了 验证 应 用 程序 ， 需 要 手动 读 取 消息 或 手动 生成 消 
息 。 这 个 时 候 可 以 借助 kafka-console-consumer.sh 和 kafka-console-producer.sh 这 
两 个 工具 ， 它们 包装 了 Java 客户 端 ， 让 用 户 不 需要 编写 整个 应 用 程序 就 可 以 与 
Kafka 主题 发 生 交互 。 


和 将 结果 输出 到 其 他 应 用 程序 


有 时 候 ， 我 们 可 能 需要 编写 应 用 程序 将 控制 台 消费 者 和 控制 台 生 产 者 包装 起 
来 ， 用 它 读 取消 息 ， 并 把 消息 传 给 男 一 个 应 用 程序 去 处 理 。 这 种 应 用 程序 太 
过 脆弱 ， 应 该 尽量 避免 编写 这 类 应 用 程序 。 我 们 无 法 保证 控制 台 消 费 者 不 于 
失 数据 ， 也 无 法 使 用 控制 台 生 产 者 的 所 有 特性 ， 而 且 它 发 送 数据 的 方式 也 很 
奇怪 。 最 好 的 方式 是 直接 使 用 Java 客户 端 ， 或 者 使 用 其 他 基于 Kafka 协议 实 
现 的 第 三 方 客户 端 (可 能 是 使 用 其 他 语言 开发 的 ) 。 


9.5.1 控制 台 消费 者 


kafka-console-consumer.sh 工具 提供 了 一 种 从 一 个 或 多 个 主题 上 读 取 消息 的 方式 。 
消息 被 打印 在 标准 输出 上 ， 消息 之 间 以 空 行 分 隔 。 默认 情况 下 ， 它 会 打印 没有 经 
过 格式 化 的 原始 消息 字 节 (使 用 DefaultFormatter ) 。 它 有 很 多 可 选 参数 ， 
其 中 有 一 些 基本 的 参数 是 必 选 的 。 


ei 


iI 


使 用 与 Kafka broker 相同 版 本 的 消费 者 客户 端 ， 这 一 点 是 非常 重要 的 。 旧 版 
本 的 控制 台 消 费 者 与 Zookeeper 之 间 不 恰当 的 交互 行为 可 能 会 影响 到 集群 。 


第 一 步 要 指定 是 否 使 用 新 版 本 的 消费 者 ， 并 指定 Kafka 集群 的 地 址 。 如 果 使 用 的 
是 旧版 本 的 消费 者 ， 只 需要 提供 - -zookeeper 参数 ， 后 面 跟 上 Kafka 集群 的 连 
接 字 符 串 。 对 于 上 面 的 例子 来 说 参数 可 能 是 - -zookeeper 
zo01.example.com:2181/kafka-cluster 。 如 果 使 用 了 新 版 本 的 消费 者 ， 
必须 使 用 - -new-consumer 和 --broker-list ，--broker-list 后 面 需要 
跟 上 以 逗号 相隔 的 broker 地 址 列表 ， 比 如 - -broker-1list 
kafkali.example.com:9092,kafka2.example.com:9092 。 


下 一 步 要 指定 待 读 取 的 主题 。 这 里 有 3 个 可 用 参数 ， 分 别 是 --topic 、-- 
whitelist 和 - black is， 。 此 处 允许 只 指定 一 个 参数 。- -topic 用 于 指定 
单个 待 读 取 的 主题 ，- -whitelist 和 --blacklist 后 面 跟着 一 个 正则 表达 式 

(在 命 命令 行 里 可 能 需要 转 义 ) 。 与 白 名 单 正则 表达 式 匹 配 的 主题 将 会 被 读 取 ， 与 
墨 名 单 正 则 表达 式 匹 配 的 主题 不 会 被 读 取 。 


示例 : 使 用 旧版 消费 者 读 取 单个 主题 my-topic。 


# kafka-console-consumer.sh --zookeeper 
zoo1.example.com:2181/kafka-cluster -- topic my-topic 


sample message 1 

sample message 2 

ACProcessed a total of 2 messages 
# 


除了 基本 的 命令 行 参数 外 ， 也 可 以 把 消费 者 的 其 他 配置 参数 传 给 控制 台 消 费 者 。 
0 式 来 达到 这 个 目的 ， 这 取决 于 需要 传递 的 参数 个 数 以 及 个 人 喜 
好 。 第 一 种 方式 是 将 配置 参数 写 在 一 个 文件 里 ， 然 后 通过 - -consumer . confg 
CoN Gr 定 配 置 文件 ， 其 中 CONFIGFILE 就 是 配置 文件 的 全 路 径 。 另 一 
种 方式 是 直接 在 命令 行 以 - -consumer -property KEY=VALUE 的 格式 传递 一 
个 或 多 个 参数 ， 其 中 KEY 指 参数 的 名 字 ，VALUE 指 参数 的 值 。 这 种 方式 在 设置 
消费 者 属性 时 会 很 用， 比如 设置 群 组 的 ID 。 


和 容易 混淆 的 命令 行 参数 
控制 台 消 费 者 和 控制 台 生 产 者 有 一 个 共同 的 参数 - -property ， 于 万 不 要 


将 这 个 参数 与 - -consumer - GE 和 property 混 
消 。- -property 参数 用 于 癌 消 息 格 式 化 器 传递 配置 信息 ， 而 不 是 给 客户 端 
本 身 传递 配置 信息 。 


控制 台 消 费 者 的 其 他 和 常用 配置 如 下 。 


--formatter CLASSNAME 


指定 消息 格式 化 器 的 类 名 ， 用 于 解码 消息 ， 它 的 默认 值 是 
kafka.tools.DefaultFormatter 。 


和 耳 


--from-beginning 


指定 从 最 旧 的 偏 移 量 开 始 读 取 数据 ， 否 


口 
--max-messages NUM 


则 就 从 最 新 的 偏 移 量 开始 读 取 。 


指定 在 退出 之 前 最 多 读 取 NUM 个 消息 。 


--partition NUM 


指定 只 读 取 ID 为 NUM 的 分 
01. 消息 格式 化 器 的 选项 


除了 默认 的 消息 格式 化 器 之 外 ， 还 


区 (需要 新 版 本 的 消费 者 ) 


0° 


其 他 3 种 可 用 的 格式 化 器 。 
kafka.tools.LoggingMessageFormatter 
将 消 


首 息 输出 到 日 志 ， 而 不 是 输出 到 标准 的 输出 设备 。 日 志 级 别 为 
INFO， 并 且 包 含 了 时 间 戳 、 键 和 值 。 


kafka.tools.ChecksumMessageFormatter 
只 打印 消息 的 校 验 和 。 


kafka.tools.NoOpMessageFormatter 


读 取消 息 但 不 打印 消息 。 


kafka.tools.DefaultMessageFormatter 


有 一 些 非常 有 用 的 配置 选项 ， 这 些 选 项 可 以 通过 - -property 命令 行 
参数 传 给 它 。 
print,timestamp 


如 果 被 设 为 true ， 束 会 打印 每 个 消息 的 时 间 截 。 
print.key 


如 有 果 被 设 为 true ， 除 了 打印 消息 的 值 之 外 ， 还 会 打印 消息 的 链 。 


key .separator 


指定 打印 消息 的 键 和 消息 的 值 所 使 用 的 分 隔 符 。 
line.separator 


指定 消息 之 间 的 分 隔 符 。 


key.deserializer 


指定 打印 消息 的 键 所 使 用 的 反 序列 化 器 类 名 。 


value.deserializer 
指定 打印 消息 的 值 所 使 用 的 反 序列 化 器 类 名 。 
反 序 列 化 类 必须 实现 


org.apache.kafka.common.serialization.Deserializer 接口 ， 
控制 台 消 费 者 会 调用 它们 的 toString() 方法 获取 输出 结果 。 一 般 来 说 ， 
在 使 用 kafka_console_consumer.sh 工具 之 前 ， 需 要 通过 环境 变量 
CLASSPATH 将 这 些 实现 类 添加 到 类 路 径 里 。 


02. 读 取 偏 移 量 主题 


有 时 候 ， 我 们 需要 知道 提交 的 消费 者 群 组 偏 移 量 是 多 少 ， 比 如 某 个 特定 的 群 
组 是 否 在 提交 偏 移 量 ， 或 者 偏 移 量 提交 的 频 度 。 这 个 可 以 通过 让 控制 台 消 费 
者 读 取 一 个 特殊 的 内 部 主题 __ consumer_offsets 来 实现 。 所 有 消费 者 的 
偏 移 量 都 以 消息 的 形式 写 到 这 个 主题 上 。 为 了 解码 这 个 主题 的 消息 ， 需 要 使 
用 kafka.coordinator .GroupMetadataManagder$offsetsMessage 
Formatter 这 个 格式 化 器 。 


示例 : 从 偏 移 量 主题 读 取 一 个 消息 。 


# kafka-console-consumer.sh --zookeeper 
zo01.example.com:2181/kafka-cluster -- topic __consumer_offsets 
--formatter 'kafka.coordinator.GroupMetadataManager$0offsetsMessage 
Formatter' --max-messages 1 

[my-group-name, my-topic,0]::[0ffsetMetadata[481690879, NO_METADATA] 
;CommitTime 1479708539051,ExpirationTime 1480313339051] 


Processed a total of 1 messages 
# 


9.5.2 ”控制 台 生 产 者 


与 控制 台 消费 者 类 似 ，kafka-console-producer.sh 工具 可 以 用 于 问 Kafka 主题 写 入 
消息 。 上 默认 情况 下 ， 该 工具 将 命令 行 输入 的 每 一 行 视 为 一 个 消息 ， 消 息 的 键 和 值 


D 


se 


一 < 


以 Tab 字符 分 隔 (如 果 没 有 出 现 Tab 字符 ， 那 么 键 就 是 null) 。 


和 改变 命令 行 的 读 取 行 为 


如 果 有 必要 ， 可 以 使 用 自 定义 类 来 读 取 命 令 行 输入 。 自 定义 类 必须 继承 
kafka.common .MessageReader 类 ， 并 负责 创建 ProducerRecord 对 
象 。 然 后 在 命令 行 的 --Line-reader 参数 后 面 指定 这 个 类 ， 并 确保 包含 这 
个 类 的 JAR 包 已 经 加 入 到 类 路 径 里 。 


控制 台 生 产 者 有 两 个 参数 是 必须 指定 的 ，- -broker -1ist 参数 指定 了 一 个 或 多 
个 broker， 它 们 以 逗号 分 隔 ， 格 式 为 hostname:port ; 男 一 个 参数 - -topic 
指定 了 生成 消息 的 目标 主题 。 在 生成 完 消息 之 后 ， 需 要 发 送 一 个 EOF 字符 来 关闭 
客户 端 。 


示例 : 辣 主 题 my-topic 生成 两 个 消息 。 


# kafka-console-producer.sh --broker-list 
kafkai.example.com:9092, kafka2.example.com:9092 --topic my-topic 
sample message 1 

sample message 2 

^D 

# 


与 控制 台 消 费 者 一 样 ， 控 制 台 生产 者 可 以 接受 普通 生产 者 的 配置 参数 。 这 也 可 以 


通过 两 种 方式 来 实现 ， 具 体 用 哪 一 种 取决 于 你 想 要 传递 的 参数 个 数 和 个 人 喜好 。 
第 一 种 方式 是 通过 - -producer .config CONFIGFILE 指定 消费 者 配置 文件 ， 
其 中 CONFIGFILE 是 配置 文件 的 全 路 径 。 另 一 种 方式 是 直接 在 命令 行 以 - - 
producer-property KEY=VALUE 的 格式 传递 一 个 或 多 个 参数 ， 其 中 KEY 指 
参数 的 名 字 ，VALUE 指 参数 的 值 。 这 种 方式 在 设置 生产 者 属性 时 会 很 有 用 ， 比 
如 消息 批 次 的 相关 配置 (如 Linger .ms 或 batch.size) 。 


控制 台 生 产 者 有 很 多 命令 行 参数 可 用 于 调整 它 的 行为 。 


--key-serializer CLASSNAME 


指定 消息 键 的 编码 器 类 和 名， 默认 是 kafka.serializer.DefaultEncoder 。 


--Value-serializer CLASSNAME 


指定 消息 值 的 编码 器 类 和 名， 默认 是 kafka.serializer.DefaultEncoder 。 


--Compression-codec STRING 


指定 生成 消息 所 使 用 的 压缩 类 型 ， 可 以 是 none 、gzip、snappy 或 1z4 
， 默 认 值 是 gzip 。 


- -Sync 


年 定 以 同步 的 方式 生成 消息 ， 也 就 是 说 ， 在 发 送 下 一 个 消息 之 前 会 等 待 当前 
肖 息 得 到 确认 。 


一 <v 


\ 创建 自 定义 序列 化 器 


自 定 义 序 列 化 器 必须 继承 kafka.serializer .Encode 类 ， 可 以 用 于 做 一 
些 转换 操作 ， 比 如 将 JSON 格式 的 字符 串 转 成 其 他 格式 ， 如 Avro， 让 这 些 消 
息 可 以 被 保存 到 主题 上 。 


文本 行 读 取 器 的 配置 参数 


kafka.tools.LineMessageReader 类 负责 读 取 标准 输入 ， 并 创建 消息 记 
录 。 它 也 有 一 些 非常 有 用 的 配置 参数 ， 可 以 通过 - -property 命令 行 参数 把 这 
些 配置 参数 传 给 控制 台 生 产 者 。 


ignore.error 


如 采 被 设 为 false ， 那 么 在 parse .key 被 设 为 true 或 者 标准 输入 里 没有 
包含 键 的 分 隔 符 时 就 会 抛 出 异常 ， 上 默认 为 true 。 


parse.key 


如 果 被 设 为 false ， 那 么 生成 消息 的 键 总 是 nuL1L ， 默 认为 true 。 


key ,Separator 
指定 消息 键 和 消息 值 之 间 的 分 隔 符 ， 默 认 是 Tab 字符 。 


在 生成 消息 时 ，LineMessageReader 使 用 第 一 个 出 现 的 key .separator 作为 分 
隅 符 来 拆 分 输入 。 如 果 在 分 隔 符 之 后 没有 其 他 字符 ， 那 么 消息 的 值 为 空 。 如 果 输 
入 里 没有 包含 分 隔 符 ， 或 者 parse, key 被 设 为 false ， 那 么 消息 的 键 就 是 
Null 。 


9.6 ”客户 端 ACL 


命令 行 工具 kafka-acls.sh 可 以 用 于 处 理 与 客户 端 访问 控制 相关 的 问题 ， 它 的 文档 
可 以 在 Apache Kafka 官方 网 站 上 找到 。 


on 


9.7 不 安全 的 操作 

有 一 些 管理 操作 虽然 在 技术 上 是 可 行 的 ， 但 如 果 不 是 非常 有 必要 ， 就 不 应 该 关 试 
那么 做 。 比 如 ， 你 正在 诊断 二 个 问题 ， 但 已 经 没有 其 他 可 行 的 办 法 ， 或 者 发 现 了 
一 个 bug， 需 要 一 个 临时 解决 方案 。 这 些 操作 一 般 在 文档 里 不 会 有 相关 的 说 明 ， 
而 且 未 经 证 实 ， 有 可 能 会 给 应 用 程序 带 来 风险 。 


这 里 会 列举 一 些 常 见 的 操作 ， 在 紧急 情况 下 可 以 使 用 它们 。 不 过 ,一般 情 况 下 不 
建议 执行 这 些 操作 而 且 在 执行 之 前 要 慎重 考虑 。 


父 此 处 有 危险 


本 节 介 绍 的 操作 将 涉及 保存 在 Zookeeper 上 的 元 数据 。 除 了 这 里 提 到 的 内 容 
以 外 ， 不 要 直接 修改 Zookeeper 的 其 他 任何 信息 ， 一 定 要 小 心 谨慎 ， 因 为 这 
些 操 作 都 是 很 危险 的 。 
9.7.1 移动 集群 控制 器 
每 个 Kafka 集群 都 有 一 个 控制 器 ， 它 是 运行 在 集群 某 个 broker 上 的 一 个 线程 。 控 
制 器 负责 看 管 集群 的 操作 ， 有 时 候 司 到 将 反 制 器 从 一 个 broker 迁移 到 另 一 个 
broker 上 上。 例如， 因为 出 现 了 某 些 异常 ， 控制 器 虽然 还 在 运行 ， 但 已 无 法 提供 正 
常 的 功能 。 这 时 候 可 以 迁移 控制 器 ， 但 毕竟 这 也 不 是 一 般 性 的 操作 ， 所 以 不 应 该 
经 常 迁 移 控制 妖 。 
当前 控制 器 将 自己 注册 到 Zookeeper 的 一 个 节点 上 ， 这 个 节点 处 于 集群 路 径 的 最 


名 字 叫 作 /controller 。 手 动 删除 这 个 万 点 会 释放 当前 控制 右 ， 集 群 将 
进行 新 的 控制 器 选举 。 


9.7.2 ”取消 分 区 重 分 配 
分 区 重 分 配 的 一 般 流程 如 下 。 
(1) 发 起 重 分 配 请 求 (创建 Zookeeper 节点 ) 。 
(2) 集群 控制 器 将 分 区 添加 到 broker 上 。 
(3) 新 的 broker 开始 复制 分 区 ， 直 到 副本 达到 同步 状态 。 
(4) 集群 控制 器 从 分 区 副本 清单 里 移 除 旧 的 broker 。 
因为 分 区 重 分 配 是 并 行进 行 的 ， 所 以 一 般 情 况 下 没有 理由 取消 一 个 正在 进行 中 的 


重 分 配 任务 。 不 过 有 一 个 例外 的 情况 ， 比 如 在 重 分 配 进 行 到 一 半 时 ，broker 发 生 
了 故障 并 且 无 法 立即 重启 ， 这 会 导致 重 分 配 过 程 无 法 结束 ， 进 而 妨碍 其 他 重 分 配 


任务 的 进行 《比如 将 故障 broker 的 分 区 分 配给 其 他 broker) 。 如 果 发 生 了 这 种 情 
况 ， 可 以 让 集群 忽略 这 个 重 分 配 任务 。 


移 除 一 个 进行 中 的 分 区 重 分 配 任务 的 步骤 如 下 。 


(1) 从 Zookeeper 上 删除 /admin/reassign_partitions 节点 。 


(2) 重新 选举 控制 器 (参见 9.7.1 入) 。 


全 、 检查 复制 系数 


在 取消 进行 中 的 分 区 重 分 配 任务 时 ， 对 于 任何 一 个 未 完成 重 分 配 的 分 区 来 
说 ， 旧 的 broker 都 不 会 从 副本 清单 里 移 除 。 也 束 是 说 ， 有 些 分 区 的 复制 系数 
会 比 正常 的 大 。 如 果 主 题 的 分 区 包含 不 一 致 的 复制 系数 ， 那 么 broker 是 不 允 
许 对 其 进行 操作 的 (比如 增加 分 区 ) 。 所 以 建议 检查 分 区 是 否 仍然 可 用 ， 并 
确保 分 区 的 复制 系数 是 正确 的 


9.7.3 ” 移 除 待 删除 的 主题 


在 使 用 命令 行 工 具 删 除 主题 时 ， 命 令 行 工具 会 在 Zookeeper 上 创建 一 个 节点 作为 
删除 主题 的 请 求 。 在 正常 情况 下 ， 集 群 会 立即 执行 这 个 请 求 。 不 过 ， 命 令 行 工 具 
并 不 知道 集群 是 否 启 用 了 主题 删除 功能 。 因 此 ， 如 采集 群 没 有 局 用 主题 删除 功 

那么 命令 行 工 具 发 起 的 请 求 会 一 直 被 挂 起 。 不 过 这 种 挂 起 请 求 是 可 以 被 移 除 
主题 的 删除 是 通过 在 /admin/delete_topic 节点 下 创建 一 个 以 待 删除 主题 名 


字 命 名 的 子 节 点 来 实现 的 。 所 以 ， 删 除了 这 些 节点 (不 过 不 要 删除 
/admin/delete_topic 这 个 父 节点 ) ， 也 就 移 除了 被 挂 起 的 请 求 。 


9.7.4 ”手动 删除 主题 


如 采集 群 禁用 了 主题 删除 功能 ， 或 者 需要 通过 非 正式 的 途径 删除 某 些 主题 ， 那 么 
可 以 进行 手动 删除 。 这 要 求 在 线 下 关闭 集群 里 所 有 的 broker 。 


信 、 先 关 闭 broker 


在 集群 还 在 运行 的 时 候 修改 Zookeeper 里 的 元 数据 是 很 危险 的 ， 这 会 造成 集 
。 所 以 ， 不 要 在 集群 还 在 运行 的 时 候 删除 或 修改 Zookeeper 里 的 主 


从 集群 里 手动 删除 主题 的 过 程 如 下 。 


(1) 关闭 集群 里 所 有 的 broker 。 


(2) 删除 Zookeeper 路 径 /brokers/topics/TOPICNAME， 注 意 要 先 删 除 节 点 下 的 子 
点 。 


G) 删除 每 个 broker 的 分 区 目录 ， 这 些 目录 的 名 字 可 能 是 TOPICNAME-NUM ， 其 
' NUM 是 指 分 区 的 ID 。 


(4) 重启 所 有 的 broker 。 
9.8 总结 


运行 一 个 Kafka 案 群 需要 何 出 很 信 的 努 习 ， 为 了 让 Kafka 保持 茵 峰 状态 ， 需 要 做 
大 量 的 配置 和 维护 。 我 们 在 这 一 章 里 介绍 了 Kafka 的 很 多 日 常 操作 ， 比 如 经 常会 
用 到 的 主题 管理 和 客户 端 配置 也 介绍 了 一 些 用 于 诊断 间 题 的 复杂 操作 ， 比 如 检 
查 日 志 片 段 ; 最 后 还 介绍 了 一 些 不 安全 的 操作 ， 这 些 操作 在 特殊 的 情况 下 可 以 帮 
你 解决 问题 。 通 过 执行 这 些 操作 ， 你 就 可 以 更 好 地 管理 Kafka 集群 。 


当然 ， 如 采 没 有 进行 适当 的 监控 ， 管 理 集群 惑 是 一 个 不 可 能 完成 的 任务 。 第 10 
章 将 会 讨论 如 何 对 broker 和 集群 的 健康 状况 以 及 操作 进行 监控 ， 这 样 就 可 以 知道 
Kafka 的 运行 状态 了 。 我 们 也 会 提供 一 些 有 关 客 户 端 (包括 生产 者 和 消费 者 ) 监 
控 的 最 佳 实践 。 


第 10 章 ”监控 Kafka 


Kafka 应 用 程序 包含 了 大 量 的 度量 指标 ， 以 至 于 很 多 人 搞 不 清楚 哪些 是 重要 的 ， 
哪些 可 以 置之不理 。 它 们 所 涉及 的 范围 ， 从 简单 的 流 量 速率 度量 指标 到 各 种 请 求 
类 型 的 时 间 度 量 指标 ， 既 有 主题 级 别 的 ， 也 有 分 区 级 别 的 。 这 些 度量 指标 为 
人 种 行为 提供 了 详细 的 信息 ， 不 过 它们 也 成 为 了 Kafka 系统 监控 者 

J“ 械 梦 ”。 


这 一 章 将 详细 介绍 一 些 常 用 的 关键 性 度量 指标 ， 以 及 如 何 根据 这 些 指标 采取 相应 
的 行动 ， 也 会 介 绍 一 些 用 于 调试 问题 的 度量 指标 。 不 过 ， 这 不 是 一 个 完整 的 度量 
指标 清单 。 度 量 指 标清 单 会 经 常 发 生变 化 ， 而 且 很 多 度量 指标 只 对 有 经 验 的 
Kafka 开发 人 员 有 参考 价值 。 


10.1 度量 指标 基础 


在 介绍 Kafka broker 和 客户 端的 度量 指标 之 前 ， 先 来 讨论 有 关 监 控 Java 应 用 程序 
的 基础 知识 以 及 有 关 监 控 和 告警 的 最 佳 实 践 。 学 完 本 章 知 识 ， 读 者 将 会 对 应 用 
程序 的 监控 有 一 个 基本 的 了 解 ， 同时 能 明 白 度量 指标 的 重要 性 ， ° 


10.1.1 度量 指标 在 哪里 


Kafka 提供 的 所 有 度量 指标 都 可 以 通过 Java Management Extensions (JMX) 接口 
来 访问 。 要 在 外 部 监控 系统 里 使 用 这 些 度量 指标 ， 最 简单 的 方式 是 将 负责 收集 度 
量 指标 的 代理 (agent) 连接 到 Kafka 上 。 代 理 作为 一 个 单独 的 进程 运行 在 监控 系 
统 里 ， 并 连接 到 Kafka 的 JMX 接口 上 ， 例 如 使 用 XI check_jmx 插件 或 
a 来 连接 JMX 接口 ;也 可 以 直接 在 Kafka 进程 里 运行 一 个 JMX 代理 ， 然 
后 通过 HTTP 连接 访问 度量 指标 ， 比 如 Jolokia 或 MX4J。 


本 章 将 不 会 深入 讨论 如 何 设置 监控 代理 ， 每 一 种 代理 都 有 多 种 使 用 方式 。 如 用 所 
在 的 组 织 没 有 监控 Java 应 用 程序 的 经 验 ， 那 么 可 以 考虑 使 用 第 三 方 的 监控 服务 。 
如 有 果 采 用 了 这 种 方式 ， Ss 购买 监控 服务 ， 由 他 们 提供 监 
控 代 理 、 度 量 指标 收集 点 、 存 储 、 图 形 化 和 告警 。 服 务 供应 商 可 以 搭建 监控 代 
理 ， 并 提供 后 续 的 服务 支持 。 


和 找到 JMX 端口 


broker 将 JMX 端口 作为 整个 broker 配置 信息 的 一 部 分 保存 在 Zookeeper 上 。 
所 以 ， 如 果 要 通过 编程 的 方式 访问 Kafka 的 . JMX， 比 如 管理 工具 需要 在 没有 
端口 配置 的 情况 下 连接 到 JMX， 那 么 可 以 从 Zookeeper 上 获取 端口 信 

已 。/brokers/ids/<ID> 节点 包含 了 JSON 格式 的 broker 信息 ， 里 面 有 
JMX 对 应 的 主机 名 (hostname ) 和 端口 (jmx_port) 。 


10.1.2 ”内 部 或 外 部 度量 


JMX 接口 提供 的 是 内 部 度量 指标 ， 它 们 由 被 监控 的 应 用 程序 生成 。 对 于 很 多 内 部 
度量 来 说 (比如 各 个 请 求 阶段 的 时 间 ) ， 使 用 内 部 度 量 指标 是 最 好 的 选择 。 没 有 
什么 能 比 应 用 程序 更 加 了 解 自己 了 。 还 有 一 些 度量 指标 ， 比 如 请 求 的 整体 时 间 、 
某 种 请 求 类 型 的 可 用 性 ， 可 以 在 应 用 程序 外 部 进行 度量 。 也 就 是 说 ， 这 些 度量 指 
标 是 由 客户 端 或 其 他 第 三 方 应 用 (对 于 我 们 来 说 束 古 指 Kafka broker) 提供 的 。 
另外 也 有 一 些 度 量 指标 ， 比 如 可 用 性 (broker 是 否 可 达 ) 或 延迟 (请 求 需 要 的 时 
间 ) 。 这 些 度量 指标 为 被 监控 的 应 用 程序 提供 了 很 有 用 的 外 部 视图 。 


网 站 健康 监控 殉 是 我 们 所 熟知 的 一 种 外 部 度量 。 一 个 正常 运行 的 Web 服务 器 能 够 
正常 处 理 请 求 ， 它 向 监控 系统 发 送 度量 指标 ， 一 切 看 起 来 都 很 好 。 不 过 ，Web 服 
务 器 本 身 的 防火 墙 或 服务 器 所 处 网 络 的 防火 墙 可 能 导致 客户 端 无 法 连接 到 服务 器 
上 。 负 责 检查 网 站 可 访问 性 的 外 部 监控 系统 将 会 检测 到 这 个 问题 ， 并 发 送 告警 。 


10.1.3 ”应 用 程序 健康 检测 


不 管 通过 哪 一 种 方式 从 Kafka 收集 监控 信息 ， 都 要 确保 能 够 通过 简单 的 健康 检测 
来 监控 应 用 程序 本 身 的 健康 状况 ， 这 可 以 通过 两 种 方式 来 实现 。 


。 使 用 外 部 进程 来 报告 broker 的 运行 状态 〈 健 康 检 测 ) 。 
。 在 broker 停止 发 送 度量 指标 时 发 出 告警 (也 叫 作 stale 度量 指标 ) 。 


虽然 第 二 种 方式 也 是 可 行 的 ， 但 有 时 候 很 难 区 分 是 broker 出 现 了 问题 还 是 监控 系 
统 本 身 出 现 了 问题 。 


如 果 监 探 的 是 broker， 可 以 直接 连接 到 它 的 外 部 端口 〈 就 是 客户 端 连 接 到 broker 
所 使 用 的 端口 ， 看 看 是 否 可 以 得 到 响应 。 如 果 监 控 的 是 Kafka 客户 端 ， 就 会 比 
较 复杂 ， 需 要 检查 进程 是 否 处 于 运行 状态 ， 或 者 通过 内 部 提供 的 方法 来 确定 应 用 
程序 的 健康 状况 。 


10.1.4 ”度量 指标 的 覆盖 面 


Kafka 提供 了 很 多 度量 指标 ， 如 何 选 择 合适 的 度量 指标 非常 关键 ,特别 是 在 基 习 
这 些 度量 指标 定义 告警 的 时 候 。 太 多 难以 确定 严重 程度 的 告警 很 容易 让 人 们 陷 
入 “告警 疲 画 ”， 我 们 难以 为 每 一 个 度量 指标 定义 恰当 的 国 值 并 保持 更 新 ， 告 警 的 
可 信和 度 也 会 因此 而 下 降 。 


一 些 大 履 盖 面 的 告警 用 处 更 大 。 也 就 是 说 ， 这 类 告警 会 告诉 我 们 某 处 出 现 了 问 
题 ， 然 后 我 们 去 收集 更 多 的 信息 ， 以 便 确 定 问题 的 细节 。 想 象 一 下 汽车 的 “检查 
引擎 ”告警 灯 ， 如 果 仪 表盘 上 有 100 个 不 同 的 指示 器 ， 比 如 空气 过 滤器 、 油 箱 、 
排 气 管 等 ， 那 么 就 会 让 人 感到 很 困惑 。 相 反 ， 如 果 用 一 个 指示 器 瑟 能 告诉 我 们 汽 
车 出 现 了 问题 ， 然 后 我 们 再 去 找 出 问题 的 其 他 细节 ， 事 情 吕 会 变 得 简单 很 多 。 这 
一 革 将 介绍 具有 大 禾 盖 面 的 度量 指标 ， 它 们 可 以 让 告警 变 得 更 简单 。 


10.2 ”broker 的 度量 指标 


broker 提供 了 很 多 度量 指标 ， 它 们 大 部 分 都 是 底层 的 度量 ， 由 Kafka 开发 者 出 于 
诊断 或 调试 的 目的 而 增加 ， 也 有 为 预测 将 来 需要 的 信息 而 添加 ， 男 外 还 有 由 
Kafka 用 户 请 求 添加 ， 以 供 日 常 操作 所 需 。 这 些 度量 指 标 提供 的 信息 几乎 涵盖 了 
broker 的 每 一 项 功能 。 它 们 很 容易 造成 信息 过 载 ， 不 过 也 有 一 些 度量 指标 为 
Kafka 的 日 常 运行 提供 了 必要 的 信息 。 


全 、 示例 : 谁 来 看 着 watcher 


很 多 组 织 使 用 Kafka 收集 应 用 程序 和 系统 的 度量 指标 与 日 志 ， 然 后 供 中 心 监 
控 系 统 使 用 ， 这 样 可 以 很 好 地 解 硝 应 用 程序 和 监控 系统 。 不 过 ， 对 于 Kafka 


本 身 来 说 却 存在 一 个 问题 ， 如 果 使 用 这 个 监控 系统 来 监控 Kafka， 那 么 当 
Kafka 前 省 时 ， 我 们 很 可 能 无 法 感知 到 ， 因 为 监 榨 系统 的 数据 流 也 随 着 消失 
了 。 


有 一 些 办 法 可 以 解决 这 个 问题 。 一 种 方法 是 使 用 一 个 单独 的 监控 系统 来 监控 
Kafka， 这 个 系统 不 依赖 Kafka 提供 的 数据 。 另 一 种 方法 是 ， 如 果 有 多 个 数据 
心 ， 可 以 将 数据 中 心 A 的 Kafka 集群 度量 指标 生成 到 数据 中 心 B 的 Kafka 
4 0 


本 证 将 从 讨论 非 同 步 分 区 度量 指标 开始 ， 介 绍 如 何 根 据 这 些 度量 指标 采取 行动 ， 
然后 讨论 其 他 的 度量 指标 ， 以 便 对 broker 的 度量 指标 有 一 个 全 面 的 认识 。 这 里 不 
会 列 出 broker 的 所 有 度量 指标 ， 但 会 列 出 那些 在 监控 broker 和 集群 时 必须 用 到 的 
部 分 。 在 介绍 客户 端 度量 指标 之 前 ， 还 会 针对 日 志 展 开 详细 的 讨论 。 


10.2.1 ” 非 同 步 分 区 


如 有 果 说 broker 只 有 一 个 可 监控 的 度量 指标 ， 那 么 它 一 定 是 指 非 同步 分 区 的 数量 。 
该 度量 指明 了 作为 首领 的 broker 有 多 少 个 分 区 处 于 非 同步 状 态 。 这 个 度量 可 以 反 
映 Kafka 的 很 多 内 部 问题 ， 从 broker 的 表 答 到 资源 的 过 度 消耗 。 因 为 这 个 度量 指 
标 可 以 说 明 很 多 问题 ， 所 以 当 它 的 值 大 于 零 时 ， 就 应 该 想 办 法 采取 相应 的 行动 。 
本 章 稍 后 会 介绍 更 多 用 于 诊断 这 类 问题 的 度量 指标 。 表 10-1 列 出 了 非 同步 分 区 度 
量 指标 的 详细 信息 。 


表 10-1: 度量 指标 和 对 应 的 非 同步 分 区 


也 


Le] 


度量 指标 名 称 Under-replicated partitions 


JMX MBean kafka.server:type=ReplicaManager,name=UnderReplicatedPartitionis 


区 间 非 负 整数 


如 采集 群 里 多 个 broker 的 非 同 步 分 区 数量 一 直 你 持 不 变 ， 那 说 明 集群 中 的 茶 个 


broker 已 经 离线 了。 整个 集群 的 非 同 步 分 区 数量 等 于 离线 broker 的 分 区 数量 ， 而 
且 离 线 broker 不 会 生成 任何 度量 指标 。 这 个 时 候 ， 需 要 检查 这 个 broker 出 了 什么 
问题 ， 并 解决 问题 。 通 党 有 可 能 是 硬件 问题 ， 也 有 可 能 是 操作 系统 问题 或 者 Java 
问题 ， 导 致 进程 出 现 中 断 或 挂 起 。 


和 默认 的 副本 选举 


在 诊断 问题 之 前 ， 尝 试 过 运行 默认 的 副本 选举 ( 
释放 首领 角色 (发 生 崩 溃 或 被 关闭 ) 之 后 不 会 自 
了 首领 自动 再 均衡 ， 不 过 不 建议 启用 这 个 功能 ) 。 也 就 是 说 ， 集 群 里 的 首领 
副本 很 容易 出 现 不 均衡 。 运 行 默认 的 副本 选举 是 很 容易 的 ， 也 很 安全 ， 所 以 
在 出 现 这 类 问题 时 ， 建 议 先 重新 选举 首领 ， 看 看 能 否 解决 问题 。 


如 果 非 同步 分 区 的 数量 是 波动 的 ， 或 者 虽然 数量 稳定 但 并 没有 broker 离线 ， 说 明 
集群 出 现 了 性 能 问题 。 这 类 问题 繁复 多 样 ， 难 以 诊断 ， 不 过 可 以 通过 一 些 步 又 来 
缩小 问题 的 范围 。 第 一 步 ， 先 确认 问题 是 与 单个 broker 有 关 还 是 与 整个 集群 有 
关 。 不 过 有 时 候 这 个 也 难 有 定论 。 如 果 非 同步 分 区 属于 单个 broker， 那 么 这 个 
broker 就 是 问题 的 根源 ， 表 象 是 其 他 broker 无 法 从 它 那 里 复制 消息 。 


如 果 多 个 broker 都 出 现 了 非 同步 分 区 ， 那 么 有 可 能 是 集群 的 问题 ， 也 有 可 能 是 
个 broker 的 问题 。 这 时 候 有 可 能 是 因为 一 个 broker 无 法 从 其 他 broker 那里 复制 数 
据 。 为 了 找 出 这 个 broker， 可 以 列 出 集群 的 所 有 非 同 步 分 区 ， 并 检查 它们 的 共 
[ 。 使 用 kafka-topics.sh 工具 (第 9 章 已 详细 介绍 过 ) 可 以 获取 非 同 步 分 区 清 


示例 : 列 出 集群 的 非 同步 分 区 。 


9 章 ) 吗 ? broker 在 
首领 角色 (除非 启用 


;让 


,时 


放 怠 区 有 己 
各 


再 


# kafka-topics.sh --zookeeper zoo1.example.com:2181/kafka-cluster --describe 

--Uunder-replicated 
Topic: topicone Partition: 
Topic: topicone Partition: 
Topic: topicTwo Partition: 
Topic: topicTwo Partition: 
Topic: topicSix Partition: 
Topic: topicSix Partition: 
Topic: topicSix Partition: 
Topic: topicSix Partition: 


Isr: 
Isr: 
Isr: 
Isr: 
Isr: 
Isr: 
Isr: 
Isr: 
Isr: 
Isr: 
Isr: 
Isr: 
Isr: 
Isr: 


Leader: 
Leader: 
Leader: 
Leader: 
Leader: 
Leader: 
Leader: 
Leader: 
Leader: 
Leader: 
Leader: 
Leader: 
Leader: 
Leader: 


Replicas: 
Replicas: 
Replicas: 
Replicas: 
Replicas: 
Replicas: 
Replicas: 
Replicas: 
Replicas: 
Replicas: 
Replicas: 
Replicas: 
Replicas: 
Replicas: 


~ 


~ 


~ ~~ 一 


Topic: topicNine Partition: 
Topic: topicNine Partition: 
Topic: topicNine Partition: 
Topic: topicNine Partition: 
Topic: topicNine Partition: 
Topic: topicNine Partition: 


OONPBOP 和 NONDPNOOO 
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~~~~~~、~、 
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在 这 个 示例 中 ，broker 2 出 现在 所 有 的 副本 清单 里 ， 但 没有 出 现在 所 有 的 同步 副 
本 (ISR) 清单 里 ， 所 以 要 将 注意 力 放 在 这 个 broker 上 。 如 果 没 有 发 现 这 样 的 
broker， 那 么 问题 有 可 能 出 在 整个 集群 上 。 

01. 集群 级 别 的 问题 


集群 问题 一 般 分 为 以 下 两 类 。 


。 不 均衡 的 负载 。 
。 资源 过 度 消 耗 。 


分 区 或 首领 的 不 均衡 问题 虽然 解决 起 来 有 点 复杂 ， 但 问题 的 定位 是 很 容易 
的 。 为 了 诊断 这 个 问题 ， 需 要 用 到 broker 的 以 下 度量 指标 。 


。 分 区 的 数量 。 

。 首领 分 区 的 数量 。 

。 主题 流入 字 节 速率 。 

。 主题 流入 消息 速率 。 检 查 指 标 。 在 一 个 均衡 的 集群 里， 这 些 度量 指标 的 
数值 在 整个 集群 范围 内 是 均等 的 ， 如 表 10-2 所 示 。 


表 10-2: 资源 使 用 情况 度量 指标 


1 100 50 3.56 MB/s 9.45 MB/s 
2 101 49 3.66 MB/s 9.25 MB/s 
3 100 3.23 MB/s 9.82 MB/s 


也 束 是 说 ， 所 有 的 broker 几乎 处 理 相同 的 流量 。 假 设 在 运行 了 默认 的 副本 选 
举 之 后 ， 这 些 度量 指标 出 现 了 很 大 的 偏差 ， 那 说 明 集 群 的 流量 出 现 了 不 均 
衡 。 要 解决 这 个 问题 ， 需 要 将 负载 较 重 的 broker 分 区 移动 到 负载 较 轻 的 
broker 上 。 这 可 以 使 用 第 9 章 介绍 的 kafka-reassign-partitions.sh 工具 来 实 

现 。 


A 实现 集群 负载 均衡 的 辅助 工具 


broker 本 和 映 无 法 在 整 | 自动 的 分 区 重 分 配 。 也 就 是 说 ，Kafka 
集群 的 流量 均衡 是 一 个 十 分 费劲 的 过 程 ， 需 要 手动 检查 一 大 串 度 量 指 
标 ， 然后 进行 均衡 的 副本 重 分 让 配 。 为 了 解决 这 个 问题 ， 有 一 些 组 织 开发 
了 自动 化 工具 来 帮助 完成 这 个 任务 。 例 如 ，LinkedIn 发 布 了 一 个 叫 作 
kafka-assigner 的 工具 ， 可 以 在 GitHub 的 开源 代码 仓库 kafka-tools 里 找 
到 。Kafka 提供 的 企业 文 持 服务 也 包含 了 这 一 功能 。 


Kafka 集群 的 另 一 个 性 能 问题 是 容量 瓶 须 。 有 很 多 潜在 的 瓶颈 会 拖 慢 整个 系 
统 : CPU、 和 位 到 IO 和 了 网络 吞 吐 量 是 其 中 最 为 常见 的 。 和 磁盘 的 使 用 并 不 在 其 
列 ， 因 为 当 磁 盘 被 填 满 时 ， broker 会 在 0 接 朋 洲 sy 
诊断 容量 问题 ， 可 以 对 如 下 一 些 操作 系统 级 别 的 度量 指标 进行 监控 


。 CPU 使 用 。 
。 网 络 输入 吞吐 量 。 
。 网 络 和 输出 吞吐 量 。 


和 


DD 


。 了 位 副 平 均等 待 时 间 。 


。 磁盘 使 用 百分比 


禹 源 出 现 过 度 消耗 ， 都 会 表现 为 分 区 的 不 同步 。 要 记 住 ， 
broker 的 复制 过 程 使 用 的 也 是 Kafka 客户 端 如 果 集 群 的 数据 复制 出 现 了 问 
题 ， 那 么 集群 的 用 户 在 生产 消息 或 读 取消 息 时 也 会 出 现 问题 。 所 以 ， 有 必要 


上 述 任何 一 种 次 


为 这 些 度量 指标 定义 一 个 基线 ， 并 设 定 相应 的 阔 值 ， 以 便 在 容量 告急 之 前 定 


位 问题 。 随 着 集群 流量 的 增长 ， 对 这 些 度量 指标 的 趋势 走向 进行 检查 也 是 很 


有 必要 的 。 其 
使 用 情况 。 


. 主机 级 别 的 问题 


如 果 性 能 问题 不 是 出 现在 整个 集群 上 ， 而 是 出 现在 一 两 个 broker 里 ， 那 么 就 
要 检查 broker 所 在 的 主机 ， 看 看 是 什么 导致 它 与 集群 里 的 其 他 iw ke 不 一 
样 。 主 机 级 别 的 问题 可 以 分 为 以 下 几 类 。 


。 硬 件 问题 。 
。 进 程 冲突 。 


I，A11 Topics Bytes In Rate 最 适合 用 于 显示 集群 的 


。 本 地 配置 的 不 一 致 。 


A 典型 的 服务 器 和 典型 的 问题 


当 一 个 服务 器 及 其 操作 系统 承载 了 数 千 个 组 件 时 ， 会 变 得 
一 个 组 件 都 可 能 出 现 问题 ， 人 
| 所 有 的 内 容 ， 关 于 这 个 话题 的 书 已 经 有 很 多 


个 可 能 对 六 


很 复杂 ， 任 何 
能 衰退 。 本 书 
了 ， 而 且 这 种 


局 面 还 会 


寺 续 下去。 不 过 ， 本 书 可 以 讨论 一 些 最 为 常见 的 问题 ， 这 


一 人 小节 将 着 重 讨论 运行 Linux 操作 系统 的 服务 器 。 


硬件 问题 很 容易 被 发 现 ， 因 为 服务 器 会 直接 停止 工作 。 不 过 ， 引 起 性 能 衰退 


的 硬件 问题 却 不 那么 明显 。 当 出 现 这 类 问题 时 ， 系 统 仍旧 保持 运行 ， 但 会 降 
低 行 为 能 力 。 比 如 内 存 出 现 了 坏 点 ， 系 统 检 测 到 坏 点 ， 直 接 跳 过 这 个 片段 

(可 用 的 内 存 因 此 减少 了 ) 。 类 似 的 问题 也 会 发 生 在 CPU 上 。 对 于 这 类 问 
题 ， 可 以 使 用 硬件 提供 的 工具 来 监控 硬件 的 健康 状况 ， 比 如 智能 平台 管理 接 
口 IPMI) 。 出 现 问题 时 ， 可 以 通过 dmesg 查看 输出 到 系统 控制 台 的 内 核 


缓冲 区 日 志 。 


能 够 导致 Kafka 性 和 
用 倒 一 来 存储 消息 ,， 


于 


衰退 的 一 个 比较 第 见 的 硬件 问题 是 磁盘 故障 。 
生产 者 的 性 能 与 磁盘 的 写 入 速度 有 直接 关系 。 这 里 出 现 


| 问题 ， 而 后 者 会 导致 分 区 


的 不 同步 。 


为 此 ， 应 该 持续 地 监控 磁盘 ， 并 在 出 现 问题 时 马上 进行 修复 。 


从、 一 粒 老鼠 屎 


一 个 broker 的 磁盘 问题 可 能 


够 均等 地 分 布 在 整个 集群 里 
理 请 求 的 速度 ， 就 会 导致 生产 者 的 回 压 ， 从 而 拖 慢 发 给 所 有 broker 的 请 


、 
求 0 


假设 你 正在 通过 IPMI 


会 影响 到 整 


“下 一 


糙 个 集群 的 性 能 。 因 为 生产 者 客户 
端 会 连接 到 所 有 的 broker 上 ， 如 果 操 作 得 当 ， 这 些 broker 的 分 区 几乎 能 
个 broker 性 能 出 现 衰退 并 拖 慢 了 处 


其 他 硬件 管理 接口 来 监控 磁盘 的 状态 ， 与 此 同时 ， 


在 操作 系统 上 运行 了 SMART (Self-Monitoring, Analysis and Reporting 
Technology， 
即将 发 生 时 ， 它 会 发 出 告警 。 除 此 之 外 ， 


自行 监控 、 分 析 和 报告 技术 ) 工具 来 监控 和 测试 磁盘 。 在 故障 
还 要 注意 查看 磁盘 控制 器 ， 人 
人 否 使 用 了 RAID 硬件 都 要 注意 查看 。 很 多 们 盘 控制 句 都 有 板 载 的 缓存 ， 这 个 


缓存 只 在 控制 器 和 电池 备份 单元 (BBU) 正常 工作 时 才 会 被 使 用 。 如 果 BBU 


发 生 故 障 ， 


缓存 就 会 被 效用， 磁盘 的 性 能 就 会 衰退 。 


在 网 络 方面 ， 局 部 的 故障 也 会 带 来 很 大 的 问题 。 
如 粳 粒 的 光缆 或 连接 器 。 


上 游 网 络 硬件 的 


存 。 在 这 方面 ， 
人 


如 打倒 作 没 有 问题 ， 那么 需要 注 


一 直 在 增 


网络 连接 速度 和 双 工 设置 。 
作 系 统 上 ， 比 如 网 络 缓冲 区 太 人 小， 


说 明 网 络 连接 出 现 


有 些 问 题 是 硬件 引起 的 ， 比 
有 些 问题 是 配置 不 当 造成 的 ， 比 如 更 改 了 服务 器 或 
网 络 配置 问题 还 有 可 能 出 现在 操 


了 问题 。 


统 的 资源 ， 而 且 有 可 能 会 
的 软件 ， 或 者 一 
可 以 使 用 top 工具 来 识 


别 那 些 大 量 


或 者 太 多 的 网 络 连 接 占用 了 大 量 的 系统 内 
网 络 接口 的 错误 数量 是 一 个 最 为 关键 的 指标 。 如 采 这 个 数字 


车 系统 里 的 其 他 应 用 程序 ， 


马 们 也 会 消耗 系 


给 Kafka 市 来 压力 。 它 们 有 可 能 是 没有 被 正常 安装 
个 非 正常 运行 的 进程 ， 比 如 监控 代理 进程 。 对 于 这 种 情况 ， 
消耗 CPU 或 内 存 的 进程 。 


如 采 经 过 上 壕 的 检查 还 是 找 不 出 主机 的 问题 根源 ， 那么 有 可 能 古 broker 或 者 


系统 配置 不 一 致 造成 的 。 


一 个 服务 器 上 运行 着 多 


有 多 个 配置 选项 ， 要 找 出 们 的 差别 真是 一 项 艰巨 的 任务 


人 


使 用 配置 


己 


个 应 用 程序 ， 每 个 应 用 程序 


* 这 吏 契 为 什么 要 


理工 具 (如 Chef 或 Puppet) 来 维护 操作 系统 和 应 用 程序 (包括 


Kafka) 的 配置 一 致 性 
10.2.2 ”broker 度 量 指标 


I 区 数量 外 ， 


会 为 所 有 的 上 时 指 设 定 和 要 


有 价值 的 信息 忌 


值 ， 但 


其 他 很 多 broker 级 别 的 度量 指标 需 


它们 的 确 提供 了 关于 


。 它们 都 应 该 出 现在 监控 仪表 盘 上 。 
01. 活跃 控制 器 数量 


和 要 监控 。 虽 然 不 
F broker 和 集群 的 


0 


DD 


该 指标 表示 broker 是 否 就 是 当前 的 集群 控制 右 ， 其 值 可 以 是 0 或 1。 如 果 有 是 


间 


1， 表 示 broker 惑 是 当前 的 控制 器 。 任 何 时候 ， 都 应 该 只 有 一 个 broker 是 控 
制 句 ， 而 县 这 个 broker 必须 一 呈 征 集群 控制 问 “ 如 果 出 现 了 两 个 控制 器 ， 说 
明 有 一 个 本 该 退出 的 控制 絮 线 程 被 阻塞 了 ， 这 会 导致 管理 任务 无 法 正常 执 


行 ， 比 如 移动 分 区 。 为 了 解决 这 个 问题 ， 需 要 将 这 两 个 broker 重启 ， 
能 通过 正常 的 方式 重 局 


而 且 不 
内 为 此 时 它们 无 法 被 正常 天 闭 。 表 10-3 给 出 了 活跃 


lee 
证 卫 


控制 器 数量 度量 指标 的 详细 信息 。 
表 10-3: 活跃 控制 器 数量 度量 指标 


值 区 间 


度量 指标 名 称 Active controller count 
JMX MBean kafka.controller:type=KafkaController,name=ActiveControllerCount 


0 或 1 


如 采集 群 里 


没有 控制 右 ， 集 群 就 无 法 对 状态 的 变更 作出 恰当 的 啊 应 ， 状 态 的 


二 


变更 包括 主题 或 分 区 的 创建 和 broker 故障 。 这 时 候 要 注意 检查 为 什么 控制 器 
线程 没有 正常 运行 ， 比 如 ， Zookeeper 集群 的 网 络 分 区 就 会 造成 这 样 的 问 
题 。 解 决 底层 的 问题 之 后 ， 重 启 集群 里 的 所 有 broker， 重 置 控 制 器 线程 的 状 


0 
JU 


.请求 处 理 器 空闲 率 


Kafka 使 用 了 两 个 线程 池 来 处 理 客户 端的 请 求 ; 网 络 处 理 需 线程 池 和 请 求 处 
理 器 线程 池 。 网 络 处 理 器 线程 池 负 责 通 过 网 络 读 入 和 写 出 数据 。 这 里 没有 大 
多 的 工作 要 做 ， 也 就 是 说 ， 8 


Le] 


因此 ， 


ds 包括 从 磁 副 读 取消 息 和 往 磁盘 写 入 消 


broker 负载 的 增长 对 这 个 线程 池 有 很 大 的 影响 。 表 10-4 了 请 


求 处 理 器 空闲 率 度量 指标 的 详细 信息 甩 。 
表 10-4: 请 求 处 理 器 空闲 率 


度量 指 Request handler average idle percentage 
标 名 称 


oo kafka.server:type=KafkaRequestHandlerPool,name=RequestHandlerAvgIdlePercent 
ean 


从 0 到 1 的 浮 点 数 (包括 1 在 内 


\ 智能 地 使 用 线程 


这 样 看 来 ， 好 像 需 要 数 百 个 请 求 处 理 器 线程 ， 但 实际 上 ， 请 求 处 理 器 线 
程 数 没 必要 超过 CPU 的 核 数 。Kafka 在 使 用 请 求 处 理 器 时 是 非常 智能 


0 


UL 


的 ， 它 会 分 流 需 要 很 长 时 间 来 处 理 的 请 求 。 例 如 ， 当 请 求 且 配 铬 被 限定 
或 每 个 生产 请 求 需要 多 个 确认 时 ，Kafka 束 会 使 用 这 个 功能 


请 求 处 理 器 平均 空 则 百分比 这 个 度量 指标 表示 请 求 处 理 恬 空间 时 间 的 百 分 

比 。 数 值 越 低 ， 说 明 broker 的 负载 越 高 。 经 验 表 明 ， 如 果 空 几 百 分 比 低 于 
20%， 说 明 存 在 潜在 的 问题 ， 如 果 低 于 10%， 说 明 出 现 了 性 能 问题 。 除 了 集 
群 的 规模 太 小 之 外 ， 还 有 其 他 两 个 原因 会 增 大 这 个 线程 池 的 使 用 量 。 首 先 ， 

线程 池 里 没有 足够 的 线程 。 一 般 来 说 ， 请 求 处 理 器 线程 的 数量 应 该 与 系统 的 
处 理 器 核 数 一 样 (包括 多 线程 处 理 器 ) 。 


另 一 个 常见 的 原因 是 线程 做 了 不 该 做 的 事 。 在 Kafka 0.10 之 前 ， 请 求 处 理 器 
线程 负责 解压 传 入 的 消息 批 次 、 验 证 消息 、 分 配 偏 移 量 ， 并 在 写 入 磁盘 之 前 
重新 压缩 消息 。 粳 糕 的 是 ， 压 缩 方 法 使 用 了 同步 锁 。Kafka 0.10 版 本 引入 了 
一 种 新 的 格式 ， 偏 移 量 可 以 直接 附加 在 消息 批 次 里 。 也 就 是 说 ， 生 产 者 在 发 
送 消息 批 次 之 前 可 以 设置 相对 的 偏 移 量 ， 这 样 broker 就 可 以 避免 解压 缩 和 重 
新 压缩 。 如 果 使 用 了 支持 0.10 版 本 消息 格式 的 生产 者 和 消费 者 客户 端 ， 并 且 
把 broker 的 消息 格式 也 升级 到 了 0.10 版 本 ， 可 以 发 现 性 能 有 了 显著 的 改进 。 
这 样 可 以 降低 对 请 求 处 理 器 线程 的 消耗 。 


时 


总 及 


. 主题 流入 字 节 


主题 流入 字 太 速率 使 用 b/s 来 表示 ， 在 对 broker 接收 的 生产 者 客户 端 消息 流 
量 进行 度量 时 ， 这 个 度量 指标 很 有 用 。 该 指标 可 以 用 于 确定 何 时 该 对 集群 进 
行 扩 展 或 开展 其 他 与 规模 增长 相关 的 工作 它 也 可 以 用 于 评估 一 个 broker 是 
何 比 集群 是 的 其 他 broker 接收 了 更 多 的 流量 ， 如 果 出 现 了 这 种 情况 ， 就 需要 
对 分 区 进行 再 均衡 。 表 10-5 给 出 了 详细 信息 。 


表 10-5: 主题 流入 字 节 度量 指标 
让 


JMX MBean kafka.server:type=BrokerTopicMetrics,name=BytesInPerSec 


值 区 间 速率 为 双 精度 浮 点 数 ， 计 数 为 整数 


因为 这 是 第 一 个 速率 度量 指标 ， 所 以 有 必要 对 它 的 属性 进行 简短 的 描述 。 所 
有 的 于 染指 标 孝 提供 了 了 个 启 竹 使 用 哪些 属性 完全 取决 于 实际 的 需求 。 区 
们 可 能 是 具体 的 数字 ， 也 有 可 能 是 基于 某 些 时 间 段 的 平均 值 。 如 采 没 能 恰当 
地 使 用 这 些 指标 ， 就 无 法 看 到 broker 真实 的 状况 。 


前 两 个 属性 与 度量 无 关 ， 但 有 助 于 更 好 地 理解 相应 的 度量 指标 。 


EventType 


这 是 度量 的 单位 ， 在 这 里 是 “ 字 闻 ”。 


04. 


RateUnit 


这 是 速率 的 时 间 段 ， 在 这 


这 两 个 属性 表明 ， 


文 里 是 “ 秘 2 o 


速率 是 通过 b/s 来 表示 的 ， 不 管 它 的 值 是 基于 多 长 的 时 间 


段 算出 的 平均 值 。 速 率 还 有 其 他 4 个 不 同 粒度 的 属性 。 
OneMinuteRate 

前 1 分 钟 的 平均 值 。 
FiveMinuteRate 

前 5 分 钟 的 平均 值 。 


FifteenMinuteRate 


前 15 分 


MeanRate 


钟 的 平均 值 。 


从 broker 启动 到 目前 为 止 的 平均 值 。 


OneMinuteRate 波动 很 快 ， 它 提供 了 “时 间 点 ”粒度 的 度量 ， 适 用 于 查看 短 
期 的 流量 走势 。MeanRate 一 般 不 会 有 太 大 变化 ， 它 提供 的 是 整体 的 流量 走 
一 般 不 需要 对 它 设置 告警 。FiveMinuteRate 


势 。 虽 然 有 一 
和 FifteenMinuteRate 提供 了 


定 的 用 途 ， 但 


除了 速率 属性 外 ， 速 率 指标 还 


持 增 长 。 对 于 


字 节 总 数 。 将 该 属性 用 在 一 
度量 的 完整 视图 ， 而 不 仅仅 是 平均 速率 。 


主题 流出 字 节 


' 间 粒度 的 度量 。 


不 有 一 个 Count 属性 ， 会 在 broker 启动 之 后 保 
F 这 个 指标 来 说 ，Count 代表 了 从 broker 启动 以 来 接收 到 流量 的 
个 支持 计数 度量 指标 的 监控 系统 里 ， 束 可 以 提供 


主题 流出 字 


速率 与 流入 字 


。 流 出 字 


速率 类 似 ， 有 是 另 一 个 与 规模 增长 有 关 的 度量 指 


broker 读 取 消息 的 速率 。 流 出 速率 与 流 


速率 的 伸缩 方式 是 不 一 样 的 ， 这 要 归功 


千 。 很 多 Kafka a a ph 6 倍 ! 所 以 ， 单独 对 流出 速 


“Kafka 对 多 消费 者 客户 端的 文 


率 进行 观察 和 走势 分 析 是 非常 重要 的 。 表 10-6 给 出 了 详细 信息 。 
表 10-6: 主题 流出 字 节 度量 指标 


度量 指标 
JMX MBeal 


名 称 


Bytes out per second 


n kafka. server:type=BrokerTopicMetrics,name=BytesOutPerSec 


速率 为 双 精 度 浮 点 数 ， 计 数 为 整数 


A 把 复制 消费 者 包括 在 内 


流出 速率 也 包括 副本 流量 ， 也 就 是 说 ， 如 果 所 有 主题 都 设置 了 复制 系数 
2， 那 么 在 没有 消费 者 客户 端的 情况 下 ， 流 出 速率 与 流入 速率 是 一 样 
的 。 如 果 有 息 ， 那 么 流出 速率 会 
2 速率 的 2 倍 。 如 果 不 知道 ， 光 是 看 着 这 文 些 指标 就 会 感到 很 
疑 或 。 


05. 主题 流入 的 消息 
之 前 介绍 的 字 节 速率 以 字 节 的 方式 来 表示 broker 的 流量 ， 而 消息 速率 则 以 每 
秒 生成 消息 不 数 的 方式 来 表示 往 量 - 而 且 不 考虑 消息 的 大 小 。 这 也 是 一 个 很 
有 用 的 生产 者 流量 增长 规模 度量 指标 它 也 可 以 与 字 节 速率 一 起 用 于 计算 消 
局 的 下 全 人 。 与 字 节 速率 一 样 ， 该 指标 也 能 反映 集群 的 不 均衡 情况 。 表 
10-7 给 出 了 详细 信息 。 
表 10-7: 主题 流入 消息 度量 指标 


度量 指标 名 称 Message in per second 


直 区 间 速率 为 双 精 度 浮 点 数 ， 计 数 为 整数 


和 为 什么 没有 消息 的 流出 速率 


经 常会 有 人 问 ， 为 什么 没有 broker 的 “流出 消息 ”度量 指标 ? 因为 在 消息 
被 读 取 时 ，broker 将 整个 消息 批 次 发 送 给 消费 者， 并 没有 展开 批 次 ， 也 
束 不 会 去 计算 每 个 批 次 包含 了 多 少 个 消息 ， 所 以 ，broker 也 就 不 知道 发 
送 了 多 少 个 消息 。broker 为 此 提供 了 一 个 度量 指标 叫 作 每 秒 获取 次 数 ， 
它 指 的 是 请 求 速率 ， 而 不 是 消息 个 数 。 


06. 分 区 数量 


broker 的 分 区 数量 一 般 不 会 经 常 发 生 改变 ， E 征 指 分 配给 broker 的 分 区 
数 。 它 包括 broker 的 每 一 个 分 区 副本 ， 不 管 是 首 领 还 是 跟随 者 。 如 果 一 

群 局 用 了 上 自动 创建 主题 的 功能 ， 那 么 监控 这 个 度量 指标 会 变 得 很 有 总 思 ， 大 
2 这 样 可 以 让 主题 的 创建 游离 于 控制 之 外 。 表 10-8 给 出 了 详细 信 


表 10-8: 分 区 数量 度量 指标 


5 


JMX MBean kafka.server:type=ReplicaManager,name=PartitionCount 


值 区 间 非 负 整数 


07. 首领 数量 


08. 


该 度量 指标 表示 broker 拥有 的 首领 分 区 数量 。 与 broker 的 其 他 度量 一 样 ， 该 
度量 指标 也 应 该 在 整个 集群 的 broker 上 保持 均等 。 我 们 需要 对 该 指标 进行 周 
期 性 地 检查 ， 并 适时 地 发 出 告警 ， 即 使 在 副本 的 数量 和 大 小 看 起 来 都 很 完美 
的 时 候 ， 它 仍然 能 够 显示 出 集群 的 不 均衡 问题 。 因 为 broker 有 可 能 出 于 各 种 
原因 释放 掉 一 个 分 区 的 首领 身份 ， 比 如 Zookeeper 会 话 过 期 ， 而 在 会 话 恢复 
之 后 ， 这 个 分 区 并 不 会 自动 拿 回 首领 届 份 (除非 启用 了 自动 首领 再 均衡 功 
能 ) 。 在 这 些 情况 下 ， 该 度量 指标 会 显示 较 少 的 首领 分 区 数 ， 或 者 直接 显示 
为 零 。 这 个 时 候 需要 运行 一 个 默认 的 副本 选举 ， 重 痢 均 衡 集群 的 首领 。 表 
10-9 给 出 了 详细 信息 。 


表 10-9: 首领 数量 度量 指标 


度量 指标 名 称 Leader count 


JMX MBean kafka.server:type=ReplicaManager,name=LeaderCount 


值 区 间 非 负 整数 


可 以 使 用 该 指标 与 分 区 数量 一 起 计算 出 broker 首领 分 区 的 百分比 。 一 个 均衡 
的 集群 ， 如 果 它 的 复制 系数 为 2， 那 么 所 有 的 broker 都 应 该 差不多 是 它们 的 
50% 分 区 的 首领 。 如 果 复 制 系数 是 3， 这 个 百分比 应 该 降 到 339%。 


离线 分 区 


与 非 同步 分 区 数量 一 样 ， 离 线 分 区 数量 也 是 一 个 关键 的 度量 指标 ( 表 10- 
10) 。 该 度量 只 能 由 集群 控制 器 提供 (对 于 其 他 broker 来 说 ， 该 指标 的 值 为 
-0 
大 | o 

。 包含 分 区 副本 的 所 有 broker 都 关闭 了 。 
。 由 于 消息 数量 不 匹配 ， 没 有 同步 副本 能 够 拿 到 首领 身份 (并且 禁用 了 不 


完全 首领 选举 ) 。 


表 10-10: 离线 分 区 数量 度量 指标 


区 


度量 指标 名 称 Offline partiions count 


JMX MBean kafka.controller:type=KafkaController,name=0fflinePartiionsCount 


直 区 间 非 负 整 数 


在 一 个 生 广 环境 Kafka 集群 里 ， 离 线 分 区 会 影响 生产 者 客户 端 ， 导 致 消息 丢 
失 ， 或 者 造成 回 压 。 这 属于 “站 点 宕 机 ”问题 ， 需 要 立即 解决 。 


09. 请 求 度量 指标 


第 5 章 描述 了 Kafka 协议 ， 它 有 多 种 不 同 的 请 求 ， 每 种 请 求 都 有 相应 的 度量 
指标 。 以 下 的 请 求 类 型 都 有 相应 的 度量 指标 。 


。 ApiVersions 

。 ControlledShutdown 
。 CreateTopics 

。 DeleteTopics 
DescribeGroups 
。 Fetch 

。 FetchConsumer 
。 FetchFollower 
。 GroupCoordinator 
。 Heartbeat 

。 JoinGroup 

。 LeaderAndIsr 

。 LeaveGroup 

。 ListGroups 

。 Metadata 

。 OffsetCommit 

。 OffsetFetch 

。 Offsets 

。 Produce 

。 SaslHandshake 
。 StopReplica 

。 SyncGroup 

。 UpdateMetadata 


= 种 请 求 类 型 都 有 8 个 度量 指标 ， 它 们 分 别 体现 了 不 同 请 求 处 理 阶段 的 细 
。 例 如 ，Fetch 请 求 有 如 表 10-11 所 示 的 度量 指标 。 


表 10-11: 请 求 度量 指标 


名 字 JMX MBean 


Total Time kafka.network:type=RequestMetrics,name=TotalTimeMs, request=Fetch 


Request 
Queue Time 


Local Time |kafka.network:type=RequestMetrics,name=LocalTimeMs,request=Fetch 


kafka.network:type=RequestMetrics,name=RemoteTimeMs,request=Fetch 


kafka.network:type=RequestMetrics,name=RequestQueueTimeMs, request=Fetch 


Remote 
Time 


Throttle 
Time 


Response 
Queue Time 


Response 
Send Time 


Requests 


kafka.network:type=RequestMetrics,name=ThrottleTimeMs,request=Fetch 


kafka.network:type=RequestMetrics,name=ResponseQueueTimeMs,request=Fetch 


kafka.network:type=RequestMetrics,name=ResponseSendTimeMs, request=Fetch 


kafka.network:type=RequestMetrics,name=RequestsPerSec,request=Fetch 
Per Second 


Request Per Second 是 一 个 速率 指标 ， 
基于 守则 全 于 入内 收治 并 处 理 的 请 
度 ， 尽 管 很 多 请 求 类 型 都 不 是 很 风 


UpdateMetadata 。 


前 面 已 经 介绍 过 它 的 属性 ， 这 些 属性 下 
求 个 数 。 该 度量 提供 了 每 种 请 求 类 型 的 频 


~ 


项 每 发生， 比如 StopReplica 和 


表 10-11 中 的 7 个 time 指标 分 别 为 请 求 提供 了 一 组 百分比 数值 以 及 一 个 离散 


的 Count 属性 ， 类 似 于 速率 度量 指标 。 
人 计算 的 ， 所 以 在 查看 那些 长 时 间 没 有 变化 的 度量 指标 时 ， 请 记 住 ，broker 


代理 运行 的 时 间 越 长 ， 数 据 就 越 稳定 。 它 们 所 代表 的 请 


Total Time 


J 


这 些 指标 都 是 自 broker 启动 以 来 开 


2 


求 处 理 的 部 分 如 下 。 


表示 broker 化 在 处 理 请 求 上 的 时 间 ， 从 收 到 请 求 开始 计算 ， 直 到 将 响应 


返回 给 请 求 者 。 


Request Queue Time 


表示 请 求 停留 在 队列 里 的 时 间 ， 从 收 到 请 求 开 始 计算 ， 直 到 开始 处 理 请 


ll 


表示 首领 分 区 花 在 处 理 请 求 上 的 时 间 ， 包 括 把 消息 写 入 磁盘 (但 不 一 定 


求 o 
Local Time 
要 冲刷 ) 。 


Remote Time 
表示 在 请 求 处 理 完毕 之 前 ， 


Throttle Time 


表示 暂时 搁置 啊 应 的 时 间 ， 


额 范围 内 。 


用 于 等 


以 便 拖 慢 


行 跟随 者 的 时 间 。 


请 求 者， 把 它们 限定 在 客户 端的 配 


ll 


Response Queue Time 


表示 响应 被 发 送 给 请 求 者 之 前 停留 在 队列 里 的 时 间 。 


Response Send Time 

表示 实际 用 于 发 送 响应 的 时 间 。 
每 个 度量 指标 的 属性 如 下 。 
百 分 位 


50thPercent1LlLe 、75thPercentile 、95thPercentile 、 
98thPercentile 、99thPercentile 、999thPercentije °。 


Count 
从 broker 启动 至 今 处 理 的 请 求 数量 。 
Min 
所 有 请 求 的 最 小 值 。 
Max 
所 有 请 求 的 最 大 值 。 
Mean 
所 有 请 求 的 平均 值 。 
StdDev 


整体 的 请 求 时 间 标准 偏差 。 


A 什么 是 百 分 位 


百 分 位 是 一 种 常见 的 时 间 度 量 方式 ， 尽 管 它们 容易 被 人 误解 。 一 个 99 
百 分 位 度量 表示 ， 整 组 取样 (这 里 指 请 玉 时间 里 有 99% 的 值 小 于 度量 
指标 的 值 ， 也 就 是 说 ， 有 1% 的 值 大 于 指标 的 值 。 一 般 情 况 下 需要 查看 
平均 值 为 99% 或 99.9% 的 数值 ， 这 样 束 可 以 分 辨 出 哪些 是 平均 的 请 求 ， 
哪些 是 异样 的 请 求 。 


在 这 些 指标 和 属性 中 ， 哪 些 对 于 监控 来 说 是 比较 重要 的 ? | 要 收集 

Total Time 和 Rtesis Per Second 的 下 均值 及 较 高 的 百 分 位 (99% 或 

99.9%) ， 这 样 就 可 以 获知 发 送 请 求 的 整体 性 能 。 如 果 有 可 能 ， 尽 量 为 每 一 

1 6 种 时 间 度 量 指标 ， 这 样 就 可 以 将 性 和 问题 细 分 到 请 求 
介 段 


为 时 间 度 量 指标 设 定 告 警 阐 值 有 一 定 的 难度 。 例 如 ，fetch 请 求 时 间 受 各 种 
因素 的 影响 ， 包 括 客 户 端 等 竺 消息 的 时 间 、 主题 的 繁忙 程度 ， 以 及 客户 端 和 
broker 之 间 的 网 络 连接 速度 。 不 过 ， 对 于 Produce 请 求 来 说 ， 可 以 为 Total 
Time 设 定 99.9% 百 分 位 度量 基线 值 。 己 非 同步 分 区 闫 似 ， Produce 请 求 的 
99.9% 百 分 位 数值 快速 增长 说 明 出 现 了 大 规模 的 性 能 问题 。 


10.2.3 “主题 和 分 区 的 度量 指标 


broker 的 度量 指标 描述 了 broker 的 一 般 行为 ， 除 此 之 外 ， 还 有 很 多 主题 实例 和 分 
区 实例 的 度量 指标 。 在 大 型 的 集群 里 ， 这 样 的 度量 指标 会 有 很 多 ， 一 般 情 况 下 ， 
不 太 可 能 将 它们 全 部 收集 到 一 个 度量 指标 系统 里 。 不 过 ， 我 们 可 以 用 它们 来 调试 
与 客户 端 相 关 的 问题 。 例 如 ， 主 题 的 度量 指标 可 以 用 于 识别 出 造成 集群 流量 大 量 
增长 的 主题 。 我 们 需要 提供 这 些 度量 指标 ， 这 样 Kafka 的 生产 者 和 消费 者 就 可 以 
使 用 它们 。 不 管 是 否 会 收集 这 些 度 量 指标 ， 都 有 必要 知道 它们 的 用 处 。 


表 10-12 中 所 列 的 度量 指标 将 使 用 主题 名 称 *TOPICNAME”， 分 区 ID 为 0° 在 实 
际 中 ， 要 把 主题 名 称 和 分 区 ID 替换 成 自己 的 名 称 和 ID。 


01. 主题 实例 的 度量 指标 
主题 实例 的 度量 指标 与 之 前 描述 的 broker 度量 指标 非常 相似 。 事 实 上 ， 它 们 
之 间 唯 一 的 区 别 在 于 这 里 指定 了 主题 名 称 ， 也 就 是 说 ， 这 些 度量 指标 属于 某 
个 指定 的 主题 。 主题 实 例 的 度量 指标 数量 取决 于 集群 主题 的 数量 ， 而 且 用 户 
极 有 可 和 不 会 监控 这 些 度量 指标 或 设置 告警 。 它 们 一 般 提供 给 客户 端 使 用 ， 
客户 端 依 此 评估 它们 对 Kafka 的 使 用 情况 ， 并 进行 问题 调试 。 


表 10-12: 主题 实例 的 度量 指标 


kafka. server:type=BrokerTopicMetrics,name=BytesInPerSec, topic=TOPICNAME 


TT 


kafka.server:type=BrokerTopicMetrics,name=BytesOutPerSec, topic=TOPICNAME 


kafka.server:type=BrokerTopicMetrics,name=FailedFetchRequestsPerSec, topic=TOPICNAME 


kafka.server:type=BrokerTopicMetrics,name=FailedProduceRequestsPerSec, topic=TOPICNAME 


Messages kafka.server:type=BrokerTopicMetrics,name=MessagesInPerSec, topic=TOPICNAME 


kafka.server:type=BrokerTopicMetrics,name=TotalFetchRequestsPerSec, topic=TOPICNAME 


kafka.server:type=BrokerTopicMetrics,name=TotalProduceRequestsPerSec, topic=TOPICNAME 


02. 分 区 实例 的 度量 指标 


分 区 实例 的 度量 指标 不 如 主题 实例 的 度量 指标 那样 有 用 。 男 外 ， 它 们 的 数量 
会 更 加 庞大 ， 因 为 儿 百 个 主题 就 可 能 包含 数 千 个 分 区 。 不 过 不 管 怎 样 ， 在 某 
些 情 况 下 ;它们 还 是 有 一 


定 用 处 的 。Partition size 度量 指标 表示 分 区 当前 在 磁盘 上 保留 的 数据 量 ( 见 
表 10-13) 。 如 果 把 它们 组 合 在 一 起 ， 就 可 以 表示 单个 主题 保留 的 数据 量 ， 
作为 客户 端 配 额 的 依据 。 同 一 个 主题 的 两 个 不 同 分 区 之 间 的 数据 量 如 果 存 在 
差异 ， 说 明 消 息 并 没有 按照 生产 消息 的 键 进行 均匀 分 布 。Log segment count 
指标 表示 保存 在 磁盘 上 的 日 志 片 段 的 文件 数量 ， 可 以 与 Partition size 指标 结 
合 起 来 ， 用 于 跟踪 资源 的 使 用 情况 。 


表 10-13: 分 区 实例 的 度量 指标 


名 字 JMX MBean 


Partition size kafka.10og:type=Log,name=Size, topic=TOPICNAME, partition=0 


Log segment count kafka.1log:type=Log,name=NumLogSegments, topic=TOPICNAME, partition=0 


Log end offset kafka.1og:type=Log,name=LogEndOoffset, topic=TOPICNAME, partition=0 


Log start offset kafka.1log:type=Log,name=LogStartoffset, topic=TOPICNAME, partition=0 


Log end offset 和 Log start offset 这 两 个 度量 指标 分 别 表示 消息 的 最 大 偏 移 量 
和 最 小 偏 移 量 。 不 过 和 需要 注意 的 是 ， 不 能 用 这 两 个 指标 来 推算 分 区 的 消息 数 
量 ， 因 为 日 志 压 缩 会 导致 偏 移 量 * 丢 失 ”， 比 如 包含 相同 键 的 新 消息 会 履 盖 掉 
旧 消 息 。 不 过 它们 在 某 些 情况 下 还 是 很 有 用 的 ， 比 如 在 进行 时 间 惟 和 偏 移 量 
映射 时 ， 束 可 以 得 到 更 精确 的 映射 ， 消 费 者 客户 端 因 此 可 以 很 容易 地 回 深 到 
与 某 个 时 间 点 相对 应 的 偏 移 量 (尽管 可 能 没有 Kafka 0.10.1 里 引入 的 基于 时 
间 的 索引 搜索 那么 重要 ) 。 


和 非 同步 分 区 度量 指标 


在 分 区 实例 的 度量 指标 中 ， 有 一 个 指标 用 于 表示 分 区 是 否 处 于 非 同步 状 
态 。 一 般 情 况 下 ， 该 指标 对 于 日 党 的 运 维 起 不 到 太 大 作用 ， 因 为 这 类 指 


标 太 多 了 。 可 以 直接 监控 broker 的 非 同步 分 区 数量 ， 然 后 使 用 命令 行 工 
具 〈 参 见 第 9 章 ) 确定 哪些 分 区 处 于 非 同步 状态 。 


10.2.4_ Java 虚拟 机 监控 


除了 broker 的 度量 指标 外 ， 还 应 该 对 服务 器 提供 的 一 些 标准 度量 进行 监控 ， 包 括 

Java 虚拟 机 (JVM) 。 如 果 JVM 频繁 发 生 垃 圾 回收 ， 束 会 影响 broker 的 性 能 ， 

在 这 种 情况 下， 就 应 该 得 到 告警 。JVM 的 度量 指标 还 能 告诉 我 们 为 什么 broker 下 

游 的 度量 指标 会 发 生变 化 。 

01. 垃圾 回收 

对 于 JVM 来 说 ， 最 需要 监控 的 是 垃圾 回收 (GC) 的 状态 。 需 要 监控 哪些 
MBean 取决 于 具体 的 Java 运行 时 (JRE) 和 垃圾 回收 器 的 设置 。 如 果 JRE 使 
用 了 Oracle Java 1.8， 并 使 用 了 G1 垃圾 回收 器 ， 那 么 需要 监控 的 MBean 如 
表 10-14 所 示 。 


表 10-14: G1 垃圾 回收 器 度量 指标 


JMX MBean 


名 字 
Full GC cycles java.lang:type=GarbageCollector,name=G1 01d Generation 
Yong GC Cycles java.lang:type=GarbageCollector,name=6G1 Young Generation 


在 垃圾 回收 语义 里 ，Old 和 Full 的 意思 是 一 样 的 。 我 们 需要 监控 这 两 个 指标 
的 Collection Count 和 CollectionTime 属性 。CollectionCount 
表示 从 JVM 启动 开始 算 起 的 垃圾 回收 次 数 ，CollectionTime 表示 从 JVM 
启动 开始 算 起 的 垃圾 回收 时 间 ， 以 ms 为 单位 。 因 为 这 些 属性 是 计数 器 ， 所 
以 它们 可 以 告诉 我 们 发 生 GC 的 次 数 和 花费 在 GC 上 的 时 间 ， 还 可 以 用 于 计 
、 GC 花费 的 时 间 ， 不 过 在 通常 的 运 维 中 ， 这 样 做 并 没有 多 大 用 


这 些 指标 还 有 一 个 LastGcInfo 属性 。 这 是 一 个 由 5 个 字段 组 成 的 组 合 
值 ， 用 于 提供 最 后 一 次 GC 的 信息 。 其 中 最 重要 的 一 个 值 是 duration 值 ， 
它 以 ms 为 单位 ， 展 示 最 后 一 次 GC 花费 的 时 间 。 其 他 几 个 值 

(GcThreadCount 、id 、startTime 和 endTime ) 虽然 也 会 提供 一 些 
信息 ， 但 用 处 不 大 。 不 过 要 注意 的 是 ， 我 们 无 法 通过 该 属性 查看 到 每 一 次 
GC 的 信息 ， 因 为 年 轻 代 GC 发 生得 很 频繁 。 


02. Java 操作 系统 监控 
JVM 通过 java. 1ang:type=0peratingSystenm 提供 了 一 些 操 作 系 统 的 


信息 ， 不 过 这 些 指标 的 信息 量 很 有 限 ， 并 不 能 告知 操作 系统 的 完整 状况 。 这 
些 指 标 有 两 个 比较 有 用 但 在 操作 系统 里 难以 收集 到 的 属性 


名 


MaxFileDescriptorCount 和 OpenFileDescriptorCount 。 
MaxFileDescriptorCount 展示 JVM 能 够 打开 的 文件 描述 符 (FD) 数量 
的 最 大 值 ，0pen FileDescriptorCount 展示 目前 已 经 打开 的 文件 描述 
符 数 量 。 每 个 日 志 片 段 和 网 络 连接 都 会 打开 一 个 文件 描述 符 ， 所 以 它们 的 数 
量 增长 得 很 快 。 如 果 网 络 连 接 不 能 被 正常 关闭， 那么 broker 很 快 束 会 把 文件 


描述 符 用 完 。 
10.2.5 “操作 系统 监控 


JVM 并 不 能 告诉 用 户 所 有 与 操作 系统 有 关 的 信息 ， 因 此 ， 用 户 不 仅 要 收集 broker 
的 度量 指标 ， 也 需要 收集 操作 系统 的 度量 指标 。 大 多 数 监控 系统 都 会 提供 代理 ， 
用 于 收集 更 多 有 关 操 作 系统 的 信息 。 用 户 需要 监控 CPU 的 使 用 、 内 存 的 使 用 、 
磁盘 的 使 用 、 磁 盘 IO 和 网 络 的 使 用 情况 。 


在 CPU 方面 ， 需 要 监控 平均 系统 负载 。 系 统 负载 是 一 个 独立 的 数值 ， 它 展示 处 

理 器 的 相对 使 用 情况 。 男 外 ， 根 据 类 型 来 捕捉 CPU 的 使 用 百分比 也 是 很 有 用 

的 。 根 据 收集 方法 和 操作 系统 的 不 同 ， 可 以 使 用 如 下 列 出 的 CPU 百分比 数值 
(使 用 了 缩写 ) ， 既 可 以 使 用 其 中 的 一 部 分 ， 也 可 以 使 用 全 部 。 

US 


用 户 空 间 使 用 的 时 间 。 


sy 


内 核 空 间 使 用 的 时 间 。 
ni 


低 优先 级 进程 使 用 的 时 间 。 


id 
空闲 时 间 。 


Wa 
磁盘 等 待 时 间 。 
hi 


处 理 硬件 中 断 的 时 间 。 


Si 


处 理 软件 中 断 的 时 间 。 


St 


等 待 管理 程序 的 时 间 。 


A 什么 是 系统 负载 


尽管 很 多 人 都 知道 系统 负载 是 对 CPU 使 用 情况 的 度量 ， 但 他 们 并 不 知道 度 
量 是 如 何 进 行 的 。 平 均 负 载 是 指 等 待 处 理 器 执行 的 线程 数 。 在 Linux 系统 
里 ， 它 还 包括 处 于 不 可 中 断 睡 眠 状态 的 线程 ， 比 如 磁盘 等 待 。 负 载 使 用 3 个 
数值 来 表示 ， 分 别 是 前 1 分 钟 的 平均 值 ， 前 5 分 钟 的 平均 值 和 前 15 分 钟 的 
平均 值 。 在 单 CPU 系统 里 ， 数 值 1 表示 系统 负载 达到 了 100%， 此 时 总 会 存 
在 一 个 等 待 执行 的 线程 。 而 在 多 CPU 系统 里 ， 如 果 人 负载 达到 100%， 那 么 负 
载 的 数值 与 CPU 的 核 数 相等 。 例 如 ， 如 果 系 统 里 有 24 个 处 理 器 ， 那 么 负载 
100% 表示 负载 数值 为 24。 


对 于 broker 来 说 ， 跟 踪 CPU 的 使 用 情况 是 很 有 必要 的 ， 因 为 它们 在 处 理 请 求 时 
使 用 了 大 量 的 CPU 时 间 。 而 内 存 使 用 情况 的 跟踪 就 显得 没有 那么 重要 了 ， 因 为 
运行 Kafka 并 不 需要 太 大 的 内 存 。 它 会 使 用 堆 外 的 一 小 部 分 内 存 来 实现 压缩 功 
能 ， 其 余 大 部 分 内 存 则 用 于 缓存 。 不 过 ， 我 们 还 是 要 对 内 存 使 用 情况 进行 跟 踩 ， 
确保 其 他 的 应 用 不 会 影响 到 broker。 可 以 通过 监控 总 内 存 空 间 和 可 用 交换 内 存 空 
间 来 确保 内 存 交 换 空 间 不 会 被 占用 。 


对 于 Kafka 来 说 ， 和 磁盘 是 最 重要 的 子 系统 。 所 有 的 消息 都 保存 在 磁盘 上 ， 所 以 
Kafka 的 性 能 严重 依赖 磁 副 的 性 能 。 我 们 需要 对 磁盘 空间 和 索引 市 点 进行 监控 ， 
确保 磁盘 空间 不 会 被 用 光 。 对 于 保存 数据 的 分 区 来 说 就 更 是 如 此 。 对 磁盘 IO 进 
行 监控 也 是 很 有 必要 的 ， 它 们 揭示 了 磁盘 的 运行 效率 。 我 们 需要 监控 磁 强 的 每 秒 
种 读 写 速度 、 读 写 平均 队列 大 小 、 平 均等 待 时 间 和 磁盘 的 使 用 百分比 。 


最 后 ， 还 需要 监控 broker 的 网 络 使 用 情况 。 人 简单 地 说 ， 束 是 指 流入 和 流出 的 网 络 
流量 ， 一 般 使 用 b/s 来 表示 。 要 记 住 ， 在 没有 消费 者 时 ，1 个 流入 比特 对 应 1 个 或 
多 个 流出 比特 ， 这 个 数字 与 主题 的 复制 系数 相等 。 根 据 消费 者 的 实际 数量 ， 流 入 
流量 很 容易 比 输出 流量 高 出 一 个 数量 级 。 在 设置 告警 阀 值 时 要 切记 这 一 点 。 


10.2.6 日 志 


在 讨论 监控 时 ， 如 果 不 涉及 日 志 ， 那 么 这 个 监控 就 是 不 完整 的 。 与 其 他 应 用 程序 
一 样 ， Kafka 的 broker 也 可 以 被 配置 成 定期 向 位 盘 写 入 日 志 。 为 了 能 够 从 日 志 里 
获得 有 用 的 信息 ， 选 择 合适 的 日 志和 日 志 级 别 是 很 重要 的 。 通 过 记录 INFO 级 别 

的 日 志 ， 可 以 捕捉 到 很 多 有 关 broker 运行 状态 的 重要 信息 。 为 了 获得 一 系列 清晰 
的 日 志文 件 ， 很 有 必要 对 日 志 进 行 分 类 。 


可 以 考虑 使 用 两 种 日 志 。 第 一 种 是 ata or ， 可 以 将 它 设 置 为 
INFO 级 别 。 这 个 日 志 用 于 记录 集群 控制 器 的 信息 。 在 任何 时 候 ， 集 群 里 都 只 
一 个 控制 器 ， 因 此 只 有 一 个 broker 会 会 使 用 这 个 日 志 。 日 玉里 包含 了 主题 的 创建 和 
修改 操作 、broker 状态 的 变更 ， 以 及 集群 的 活动 ， 比 如 默认 的 副本 选举 和 分 区 的 
移动 。 另 一 个 日 志 是 kafka,server.ClLientQuotaManager ， 也 可 以 将 它 设 
置 为 INFO 级 别 。 这 个 日 志 用 于 记录 与 生产 和 消费 配额 活动 相关 的 信息 。 因 为 这 
些 信 息 很 有 用 ， 所 以 最 好 不 要 把 它们 记录 在 broker 的 主 日 志文 件 里 。 


在 调试 问题 时 ， 还 有 一 些 日 志 也 很 有 用 ， 比 如 kafka.request.logger ,可 
以 将 它 设置 为 DEBUG 或 TRACE 级 别 。 这 个 日 志 包 含 了 发 送 给 broker 的 每 一 个 请 
求 的 详细 信息 。 如 果 日 志 级 别 被 设置 为 DEBUG ， 那 么 它 将 包含 连接 端点 、 请 求 
时 间 和 概要 信息 。 如 果 日 志 级 别 被 设置 为 TRACE ， 那 么 它 将 包含 主题 和 分 区 的 
电 ， 以 及 除 ; 肖 息 体 之 外 的 所 有 与 请 求 相 关 的 信息 。 不 管 被 设置 成 什么 级 别 ， 

志 会 产生 大 量 的 数据 ， 所 以 如 果 不 是 出 了 调试 的 目的 ， 不 建议 启用 这 个 日 
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日 志 压 缩 线 程 的 运行 状态 也 是 一 个 有 用 的 信息 。 不 过 ， 这 些 线程 并 没有 单独 的 度 
量 指标 ， 一 个 分 区 的 压缩 失败 有 可 能 造成 压缩 线程 的 整体 朋 溃 ， 而 且 是 悄然 发 生 
的 。 启 用 a log.LogCleaner 、kafka,1og,Cleaner 和 
kafka.1l0g.LogCleanerManager 这 些 日 志 ， 并 把 它们 设置 为 DEBUG 级 别 ， 
就 可 以 输出 日 志 压缩 线程 的 运行 状态 。 这 些 日 志 包含 了 每 个 被 压缩 分 区 的 大 小 和 
省 息 个 数 。 一 般 情况 下 ， 这 些 日 志 的 数量 不 会 很 大 。 也 就 是 说 ， 默 认 启用 这 些 日 
志 并 不 会 带 来 什么 麻烦 。 


10.3 ”客户 端 监控 


所 有 的 应 用 程序 都 需要 监控 ， 包 括 那 些 使 用 了 Kafka 客户 端的 应 用 程序 。 不 管 是 
生产 者 还 是 消费 者 ， 它 们 都 有 特定 的 度量 指标 需要 监控 。 本 市 将 主要 介绍 如 何 监 
挥 官方 的 Java 客户 端 ， 其 他 第 三 方 的 客户 端 应 该 也 有 上 自己 的 度量 指标 。 


10.3.1 生产 者 度量 指标 


新 版 本 Kafka 生产 者 客户 端的 度量 指标 经 过 调整 变 得 更 加 人 简洁， 只 用 了 少量 的 
MBean。 相 反 ， 之 前 版 本 的 客户 端 (不 再 受 支 持 的 版 本 ) 使 用 了 大 量 的 MBean, 
而 且 度 量 指标 包含 了 大 量 的 细节 (提供 了 大 量 的 百 分 位 和 各 种 移动 平均 数 ) 。 这 
些 度 量 指 标 提供 了 很 大 的 履 盖 面 ， 但 这 样 会 让 跟踪 异常 情况 变 得 更 加 困难 。 


生产 者 度量 指标 的 MBean 名 字 里 都 包含 了 生产 者 的 客户 端 ID。 在 下 面 的 示例 
里 ， 客 户 端 ID 使 用 CLIENTID 表示 ，broker ID 使 用 BROKERID 表示 ， 主 题 的 名 
字 使 用 TOPICNAME 表示 ， 如 表 10-15 所 示 。 


表 10-15: Kafka 生 产 者 度量 指标 MBean 


证 


Overall kafka.producer:type=producer-metrics,client-id=CLIENTID 
producer 


kafka.producer:type=producer-node-metrics,client-id=CLIENTID, node-id=node- 
Per-broker BROKERID 


kafka.producer:type=producer-topic-metrics,client- 


Per-topic id=CLIENTID, topic=TOPICNAME 


上 表 中 列 出 的 每 一 个 MBean 都 有 多 个 属性 用 于 描述 生产 者 的 状态 。 下 面 列 出 ] 
用 处 最 大 的 几 个 属性 。 在 继续 了 解 这 些 属 性 之 前 ， 建 议 移 通过 阅读 第 3 章 了 解 生 
产 者 的 工作 原理 。 


01. 生产 者 整体 度量 指标 


生产 者 整体 度量 指标 提供 的 属性 描述 了 生产 者 各 个 方面 的 信息 ， 从 消息 批 次 
的 大 小 到 内 存 缓冲 区 的 使 用 情况 。 虽 然 这 些 度量 在 调试 的 时 候 很 有 用 ， 不 过 
在 实际 应 用 中 只 会 用 到 少数 的 几 个 ， 而 在 这 几 个 度量 里 ， 也 只 有 一 部 分 需要 
进行 监控 和 告警 。 下 面 将 讨论 一 些 平均 数 度量 指标 (以 -avg 结尾 ) ， 它 们 
都 有 相应 的 最 大 值 (以 -max 结尾 ) ， 不 过 这 些 最 大 值 的 用 处 很 有 限 。 


record-error-rate 是 一 个 完全 有 必要 对 其 设置 告警 的 属性 。 这 个 指标 


Tr 


的 值 一 般 情 况 下 都 是 零 ， 如 果 它 的 值 比 零 大 ， 说 明生 产 者 正在 丢弃 无 法 发 送 
的 消息 。 生 产 者 配置 了 重 试 次 数 和 回 退 策略 ， 如 果 重 试 次 数 达 到 了 上 限 ， 消 


息 (记录 ) 就 会 被 丢弃 。 我 们 可 以 跟踪 另外 一 个 属性 record-retry- 
rate ， 不 过 该 属性 不 如 record-error-rate 那么 重要 ， 因 为 重 试 是 很 正 
常 的 行为 。 


我 们 可 以 对 request-latency-avg 设置 告警 ， 它 表示 发 送 一 个 生产 者 请 
求 到 broker 所 需要 的 平均 时 间 。 在 运 维 过 程 中 ， 应 该 为 该 指标 建立 一 个 基 
线 ， 并 设 定 告警 闵 值 。 请 求 延 迟 的 增加 说 明生 产 者 请 求 正 在 变 慢 。 有 可 能 是 
网 络 出 现 了 问题 ， 也 有 可 能 是 broker 出 现 了 问题 。 不 管 是 哪 一 种 情况 ， 都 会 
导致 生产 者 端 发 生 回 压 ， 并 引发 应 用 程序 的 其 他 问题 


除了 这 些 关 键 性 的 度量 指标 外 ， 如 果 能 够 知道 生产 者 发 送 的 消息 流量 就 更 好 
了 。 有 3 个 属性 提供 了 3 个 不 同 的 视图 : outgoing-byte-rate 表示 每 秒 
钟 消息 的 字 节 数 ，record-send-rate 表示 每 秒 钟 消息 的 数量 ， 
request-rate 表示 每 秒 钟 生产 者 发 送 给 broker 的 请 求 数 。 单 个 请 求 可 以 

包含 一 个 或 多 个 批 次 ， 单 个 批 次 可 以 包含 一 个 或 多 个 消息 ， 每 个 消息 由 多 个 


Le] 


02. 


字 节 组 成 。 把 这 些 指 标 


Kafka 的 。 


显示 在 仪表 强 上 ， 可 以 跟踪 到 生产 者 是 如 何 使 用 


和 为 什么 不 使 用 ProducerRequestMetrics 


ProducerRequestMetrics MBean 提供 了 请 


速率 的 移动 平均 数 ， 但 


了 多 个 


求 延迟 的 百 分 位 和 请 求 


为 什么 不 建议 使 用 呢 ? 问题 在 于 


度量 指标 


这 个 


、 记 录 、 


种 更 为 有 效 的 方式 。 


a size-avg 表示 生产 者 发 送 请 


是 为 每 个 生产 者 线程 提供 的 。 如 果 应 用 程序 出 于 性 和 方面 的 考虑 使 用 
生产 者 线程 ， 那 么 就 很 难 对 这 些 指 标 进行 聚合 。 所 以 ， 使 用 生产 
者 整体 指标 所 提供 的 属性 是 


可 以 借助 一 些 度 量 指标 来 更 好 地 理解 字 
这 些 指 标 描述 了 这 些 实体 的 大 小 。 


请 求 和 批 次 之 间 的 关系 ， 


求 的 平均 字 节 数 ， batch-size- 表示 单个 消息 批 次 (根据 定义 ， 批 次 


包含 了 属 ] 


FE 同 


首 妃 的 有 用 信息 。 而 对 了 
供 的 信息 就 不 是 很 有 用 


鞭 


个 分 区 的 多 个 消息 


"除了 这 3 个 指标 外 ， 


per-request-avg, 


最 后 一 


它 表示 在 生产 者 的 单个 请 


个 值得 推荐 的 指标 是 record-queue-time-avg ， 


) 的 平均 字 节 数 ， 
示 单 个 消 息 的 平均 字 节 数 。 。 对 于 单 主题 的 生产 者 来 说 ， 它们 提供 了 有 天生 产 
F 多 主题 的 生产 者 来 说 ， 比 如 MirrorMaker， 
还 有 另外 一 个 指标 records - 


record-size-avg 表 


它们 提 


求 里 所 包含 的 消息 平均 个 


它 表示 消息 在 发 


送 给 Kafka 之 前 在 生产 者 客户 端 等 竺 的 平均 毫秒 数 。 应 用 程序 在 使 用 生产 者 


客户 端 发 送 消息 (调用 send 方法 ) 之 后 ， 


一 情况 发 生 。 


生产 者 会 


人 以 ME 


直 等 待 ， 


。 生产 者 客户 端 有 足够 多 的 消息 来 淖 充 批 次 (根据 


max .partition. 


。 距离 上 一 次 发 送 批 次 已 经 有 足够 


置 ) % 


bytes 的 配置 ) 


长 的 时 间 (根据 Linger .ms 的 配 


这 两 种 情况 都 会 促使 生产 者 客户 端 关闭 当前 批 次 ， 然 后 把 它 发 送 给 broker 。 


对 于 繁忙 的 主题 来 说 ， 
一 般 会 发 生 第 二 种 情况 。 


一 般 会 发 生 第 一 种 情况 ， 而 对 于 比较 慢 的 主题 来 说 


record-queue-time-avg 用 于 度量 生产 消息 所 


使 用 的 时 间 ， 因 此， 


Per-broker 和 Per-topic 度量 指标 


除了 生产 者 整体 的 度量 # 
主题 提供 了 有 限 的 属性 


集合 。 在 调试 问题 时 ， 


目标 外 ， 


可 以 通过 调 优 上 述 两 个 参数 来 满足 应 用 程序 的 延迟 需 


还 有 一 些 MBean 为 每 个 broker 连接 和 每 个 


对 它们 进行 肖 规 的 监控 。 


这 些 度量 会 4 


这 些 MBean 属性 的 命名 与 整体 度量 指标 的 命名 是 


有 用 ， 但 不 建议 


一 样 的 ， 所 表示 的 含义 也 是 一 样 的 (只 不 过 它们 是 作用 在 特定 的 broker 或 特 
定 的 主题 上 ) 。 


在 broker 实例 的 度量 指标 里 ，request-latency-avg 是 比较 有 用 的 一 
个 ， 因 为 它 一 般 比 较 稳定 (在 消息 批 次 比较 稳定 的 情况 下 ) ， 而 且 能 够 显示 
broker 的 连接 问题 。 其 他 的 属性 ， 比 如 outgoing-byte-rate 和 
request-latency-avg ， 它 们 会 因为 broker 所 包含 分 区 的 不 同 而 有 所 不 
同 。 也 就 是 说 ， 这 些 度量 会 随 着 时 间 发 生变 化 ， 完 全 取决 于 集群 的 状态 。 


主题 实例 的 度量 指标 比 broker 实例 的 度量 指标 要 有 趣 得 多 ， 不 过 只 有 在 使 用 
多 主题 的 生产 者 时 ， 它 们 才能 派 上 用 场 。 当 然 ， 也 只 有 在 生产 者 不 会 消费 过 
多 主题 的 情况 下 ， 才 有 必要 对 这 些 指标 进行 常规 的 监控 。 例 如 ，MirrorMaker 
有 可 能 会 同 成 百 上 千 的 主题 生成 消息 。 我 们 无 法 了 逐个 检查 这 些 指 标 ， 也 几乎 
不 可 能 为 它们 设置 合理 的 告警 赋 值 。 与 broker 实例 的 度量 指标 一 样 ， 主 题 实 
例 的 度量 指标 一 般 用 于 诊断 问题 。 例 如 ， 可 以 通过 record-send-rate 和 
record-error-rate 这 两 个 属性 将 丢弃 的 消息 隔离 到 特定 的 主题 上 。 男 
外 ，byte-rate 表示 主题 整体 的 每 秒 消息 字 节 数 。 


10.3.2 ”消费 者 度量 指标 


与 新 版 本 的 生产 者 客户 端 类 似 ， 新 版 本 的 消费 者 客户 端 将 大 量 的 度量 指标 属性 塞 
进 了 少数 的 几 个 MBean 里 ， 如 表 10-6 所 示 。 消 费 者 客户 端 也 作出 了 权衡 ， 去 挥 
了 延迟 百 分 位 和 速率 移动 平均 数 。 因 为 消费 者 读 取 消息 的 逻辑 比 生产 者 发 送 消息 
的 逻辑 复杂 ， 所 以 消费 者 的 度量 指标 也 会 更 多 。 具 体 请 参考 表 10-16 。 


表 10-16: Kafka 消 费 者 度量 指标 MBean 


名 称 JMX MBean 


Overall kafka.consumer:type=consumer -metrics,client-id=CLIENTID 
consumer 
Fetch manager kafka.consumer:type=consumer-fetch-manager-metrics,client-id=CLIENTID 


Pertoni kafka.consumer:type=consumer-fetch-manager-metrics,client- 
ItoPlE id=CLIENTID, topic=TOPICNAME 
kafka.consumer:type=consumer-node-metrics,client-id=CLIENTID, node-id=node- 
Per-broker er 


Coordinator kafka.consumer:type=consumer-coordinator-metrics,client-id=CLIENTID 


01. Fetch Manager 度量 指标 


在 消费 者 客户 端 ， 消 费 者 整体 度量 指标 MBean 的 用 处 不 是 很 大 ， 


因为 有 用 


的 指标 都 聚集 在 Fetch Manager MBean 里 。 消 费 者 MBean 包含 了 与 网 络 底层 


运行 情况 有 关 的 指标 ， 而 Fetch Manager MBean 则 包含 了 与 字 节 、 请 求 和 消 


县 速率 有 关 的 指标 。 与 生产 者 客户 端 不 同 的 是 ， 用 户 可 以 查看 消费 者 所 提 


的 度量 指标 ， 但 对 它们 设置 告警 是 没有 意义 的 。 


对 于 Fetch Manager 来 说 ，fetch-1Latency-avg 可 能 是 一 个 需要 对 其 进行 


监控 和 设置 告警 的 指标 。 与 生产 者 的 request - Latency-avg 类 似 ， 


人 


DE 


该 指 


标 表示 从 消费 者 向 broker 发 送 请 求 所 需要 的 时 间 。 请 求 的 延迟 通过 消费 者 的 


fetch.min.bytes 和 fetch.max.wait.ms 这 两 个 参数 进行 控制 


| 


A eh 有 时 候 broker 响应 很 快 (有 可 用 消息 的 时 
候 ) ， 有 时 候 甚 至 无 法 在 fetch.max .wait.ms 规定 的 时 间 内 完成 响应 


(没有 可 用 消息 的 时 候 ) 。 如 果 主 题 有 相对 稳定 和 足够 的 消息 流量 ， 那 么 查 


看 这 个 指标 或 许 会 更 有 意 》 


作为 什么 不 用 下 时 (Lag) 


我 们 建议 对 所 有 消费 者 的 延 时 情况 进行 监控 ,但 为 什么 不 建议 对 Fetch 
Manager 的 records-1lag-max 属性 进行 监控 呢 ? 该 属性 表示 落后 最 多 


的 分 区 的 延 时 情况 (落后 broker 的 消息 数量 ) 。 


这 里 有 两 方面 的 原因 方面 是 因为 它 只 显示 ] 单个 分 区 的 延 时 ， 另 一 


方面 是 因为 它 依赖 消费 者 的 某 些 特定 功能 
可 以 考虑 将 该 属性 作为 度量 延 时 的 指标 ， 


。 如 果 没 有 其 他 的 选择 ， 那 么 
并 为 其 设置 告警 。 不 过 ， 最 佳 


实践 应 该 是 使 用 外 部 的 延 时 监控 ， 稍 后 会 介绍 更 多 的 内 容 。 


要 想 知道 消费 者 客户 端 处 理 了 多 少 消息 流量 ， 可 以 使 用 bytes-consumed- 


rate 或 records-consumed-rate ， 或 者 同时 使 用 它们 两 个 。 它 们 分 别 
0 字 节 数 和 每 秒 读 取 的 消 息 个 数 。 有 些 人 为 它们 设 


置 了 最 小 值 告警 阐 值 ， 当 消费 者 工作 人 负载 不 足 时 ， 他 们 束 会 收 到 告警 。 不 过 


需要 注意 的 是 ， 消 费 者 和 生产 者 之 间 是 没有 厢 合 的 ， 因 此 不 能 从 消费 者 端 去 


推测 生产 者 端的 行为 模式 。 


Fetch Manager 也 提供 了 一 些 度量 指标 ， 有 助 于 理解 字 节 、 消 息 和 请 求 之 间 


关系 。fetch -rate 表示 消费 者 每 秒 发 出 请 


的 


求 的 数量 ，fetch-size-avg 


表示 这 些 请 求 的 平均 字 节 数 ， records-per-request-avg 表示 每 个 请 求 


的 平均 消息 个 数 。 要 注意 的 是 ， 


一 < 


肖 费 者 并 没有 提供 与 生产 者 相对 应 的 


record-size-avg,， 7 。 如 有 果 这 个 很 重要 ， 


么 可 以 参考 其 他 指标 ， 或 者 在 应 用 程序 接收 到 消息 


小 。 


那 


后 计算 出 消息 的 平均 大 


02. Per-broker 和 Per-topic 度量 指标 


与 生产 者 客户 端 类 似 ， 消 费 者 客户 端 也 为 每 个 broker 连接 和 每 个 主题 提供 了 

很 多 度量 指标 ， 它 们 可 以 用 于 诊断 问题 ， 但 不 建议 对 它们 进行 常规 的 监控 。 

与 Fetch Manager 一 样 ， broker 的 request-latency-avg 属性 用 处 也 很 

有 限 ， 它 取决 于 主题 的 消息 流量 。 neoming byte-rate 和 request- 

rate 分 别 表示 broker 每 秒 读 取 的 消息 字 市 数 和 每 秒 请 求 数 。 它 们 可 以 用 于 
诊断 消费 者 与 broker 之 间 的 连接 问题 。 


在 读 取 多 个 主题 时 ， 消 费 者 客户 端 所 提供 的 主题 实例 的 度量 指标 会 很 有 用 。 
如 果 只 [是 读 取 单个 生 题 那么 这 些 指标 就 与 Fetch Manager 的 指标 一 样 ， 没 
有 必要 去 收集 它们 。 但 如 果 客 户 端 读 取 了 大 量 的 主题 ， 比 如 MirrorMaker， 
那么 查看 这 些 指标 就 会 变 得 很 因 难 。 如 果 打 算 收 集 这 些 指 标 ， 可 以 考虑 收集 
最 重要 的 3 个 : bytes-consumed-rate 、records-consumed-rate 
和 fetch-size-avg 。bytes-consumed-rate 表示 从 某 个 主题 上 每 秒 
读 取 的 消息 字 节 数 ，records-consumed-rate 表示 每 秒 读 取 的 消息 个 
数 ，fetch-size-avg 表示 每 个 请 求 的 消息 平均 字 广 数 。 


03. Coordinator 度量 指标 


正如 第 4 章 所 述 ， 消 费 者 客户 端 以 群 组 的 方式 运行 。 群 组 里 会 发 生 一 些 需 要 
协调 的 活动 ， 比 如 新 成 员 的 加 入 或 者 向 broker 发 送 心跳 来 保持 群 组 的 成 员 关 
系 。 消 费 者 协调 器 负责 处 理 这 些 协调 工作 ， 作 为 消费 者 客户 端的 组 成 部 分 
它 也 维护 着 自己 的 一 组 度量 指标 。 与 其 他 度量 指标 一 样 ， Coordinator 度量 指 
标 也 提供 了 很 多 数字 ， 但 是 其 中 只 有 关键 的 一 小 部 分 需要 进行 常规 的 监控 


消费 者 群 组 在 进行 同步 时 ， 可 能 会 造成 消费 者 的 停顿 。 当 群 组 里 的 消费 者 在 
协商 哪些 分 区 应 该 由 哪些 消费 者 来 读 取 时 ， 束 会 发 生 这 种 情况 。 停 顿 的 时 间 
长 短 取决 于 分 区 的 数量 。 协 调 器 提供 了 sync-time-avg 属性 ， 用 于 表示 同 
步 活动 所 使 用 的 平均 毫秒 数 。sync-rate 属性 也 很 有 用 ， 表 示 每 秒 钟 群 组 
发 生 的 同步 次 数 。 对 于 一 个 稳定 的 消费 者 群 组 来 说 ， 这 个 数字 在 多 数 时 候 都 


消费 者 需要 通过 提交 偏 移 量 来 作为 读 取 进度 的 检查 点 ， 消 费 者 可 以 基于 固定 
时 间 间 隔 目 动 提交 偏 移 量 ， 也 可 以 通过 应 用 程序 代码 手动 提交 偏 移 量 。 提 交 
偏 移 量 也 是 一 种 生成 消息 的 请 求 (不 过 它们 有 自己 的 请 求 类 型 )， 提 交 的 偏 
移 量 就 是 消息 ， 并 被 生成 到 一 个 特定 的 主题 上 。 协 调 器 提供 了 commit- 
latency-avg 属性 ， 表 示 提 有 交 偏 移 量 所 需要 的 平均 时 间 。 与 生产 者 里 的 请 
求 延 时 一 样 ， 我 们 也 需要 监控 该 指标 ， 为 它 设 定 一 个 预期 的 基线 ， 并 设置 合 
理 的 告警 阐 值 。 


l 


de 


Coordinator 度量 指标 的 最 后 一 个 属性 是 assigned-partitions ， 表 示 分 
配给 消费 者 客户 端 ( 群 组 里 的 单个 实例 ) 的 分 区 数量 。 该 属性 之 所 以 有 用 ， 


是 因为 可 以 通过 在 整个 群 组 内 比较 各 个 实例 的 值 ， 从 而 知道 群 组 的 负载 是 
该 属性 来 识别 因 协 调 器 的 分 区 分 配 算法 所 导致 的 负载 
均衡 问题 。 


10.3.3 ”配额 


Kafka 可 以 对 客户 端的 请 求 进行 限 流 ， 防 止 客户 端 拖 垮 整 个 集群 。 对 于 消费 者 和 
生产 着 客户 端 来 说 ， 这 都 是 可 配 的 ， 可 以 使 用 每 秒 钟 允许 单个 客户 端 访问 单个 
broker 的 流量 字 节 数 来 表示 。 它 有 一 个 broker 级 别 的 黑 认 信 ， 客户 端 可 以 对 其 进 
行 履 芒 。 当 broker 发 现 客户 端 的 流量 已 经 超出 配额 时 ， 它 就 会 暂缓 癌 客 户 端 返回 
啊 应 ， 等 竺 足够 长 的 时 间 ， 直 到 客户 端 流 量 降 到 配额 以 下 。 


broker 并 不 会 在 响应 消息 里 提供 客户 端 被 限 流 的 错误 码 ， 也 就 是 说 ， 对 于 应 用 程 
序 来 说 如果 不 监 深 这 些 指标 ， 可 能 就 不 知道 发 生 了 限 流 。 需 要 监控 的 指标 如 
10-17 上 所 不 。 


表 10-17: 需要 监控 的 度量 指标 


否 
未 


MBean 


消费 kafka.consumer:type=consumer-fetch-manager-metrics,client-id=CLIENTID 的 属性 fetch- 
throttle-time-avg 


kafka.producer:type=producer-metrics,client-id=CLIENTID 的 属性 produce-throttle- 


time-avg 


默认 情况 下 ，broker 不 会 开启 配额 功能 。 不 过 不 管 有 没有 使 用 配额 ， 监 控 这 些 指 
标 总 是 没有 问题 的 。 况 且 ， 它 们 有 可 能 在 未 来 某 个 时 刻 被 局 用， 而 且 从 一 开始 就 
监控 它们 要 比 在 后 期 添加 更 加 容易 。 


10.4” 延 时 监控 


对 于 消费 者 来 说 ， 最 需要 被 监控 的 指标 是 消费 者 的 延 时 。 它 表示 分 区 最 后 个 消 
县 和 消费 者 最 后 读 取 的 消息 之 间 相 差 的 消息 个 数 。 在 之 前 的 小 节 里 已 经 说 过 ， 在 
这 里 ， 使 用 外 部 监控 要 比 使 用 客户 端 目 己 的 监控 好 得 多 。 量 然 消费 赫 提 供 了 和 二 时 
指标 ， 但 该 指标 存在 一 个 问题 ， 它 只 表示 单个 分 区 的 延 时 ， 
的 那个 分 区 ， 所 以 它 不 能 准确 地 表示 消费 者 的 延 时 。 另 外 ， 它 需要 消费 者 做 一 些 
额外 的 操作 ， 因 为 该 指标 是 由 消费 者 对 每 个 发 出 的 请 求 进行 计算 得 出 的 。 如 采 消 
费 者 发 生 裔 演 或 者 离线 ， 那 么 该 指标 要 么 不 准确 ， 要 么 不 可 用 。 


监控 消费 者 延 时 最 好 的 办 法 是 使 用 外 部 进程 ， 它 
踪 最 近 消 息 的 偏 移 量 ， 也 能 观察 消费 者 的 状态 ， 


能 够 观察 broker 的 分 区 状态 ， 跟 
跟踪 消费 者 提交 的 最 新 偏 移 量 。 


这 种 方式 提供 了 一 种 持续 更 新 的 客观 视图 ， 而 且 
在 每 一 个 分 区 上 进行 这 种 检查 。 对 于 大 型 消费 者 


不 依赖 消费 者 的 状态 。 我 们 需要 


意味 着 要 监控 成 十 上 万 个 分 区 。 


来 说 ， 比 如 MirrorMaker， 可 能 


第 9 章 介 绍 过 如 何 使 用 命令 行 工 具 获取 消费 者 群 
延 时 。 如 果 直接 监控 由 [上 有 具 提供 的 延 时 信息 ， 会 
个 分 区 定义 合理 的 延 时 。 Oe 
息 的 主题 ， 它们 的 阐 值 是 不 一 样 的 。 其 次 ， 必 须 
统 ， 并 为 它们 设置 告警 。 如 果 有 一 个 消费 者 群 组 


组 的 信息 ， 包 括 提交 的 偏 移 量 和 
会 存在 一 些 问 题 。 首 先 ， 需 要 为 每 
的 主题 和 每 秒 钟 接收 10 万 个 消 

能 够 将 延 时 指标 导入 到 监控 系 
恋 取 了 1500 个 主题 这 些 主题 


的 分 区 数量 超过 了 10 万 个 ， 那 将 是 一 项 令 人 望 而 生 且 的 任务 。 


可 以 使 用 Burrow 来 完成 这 项 工作 。Burrow 是 一 个 开源 的 应 用 程序 ， 最 初 | 


LinkedIn 开发 。 它 收集 集群 消费 者 群 组 的 信息 ， 并 为 每 个 群 组 计算 出 一 个 单独 的 


状态 ， 告 诉 我 们 群 组 是 否 运行 正常 、 年 个 洛 所 


速度 是 否 变 慢 或 者 是 否 已 经 停止 


工作 ， 以 此 来 完成 对 消费 者 状态 的 监控 。 它 不 需 
值 ， 不 过 用 户 仍 然 可 以 从 中 获得 消息 的 延 时 数量 


要 通过 监控 群 组 的 进度 来 获得 阔 
。LinkedIn 工程 博客 上 记录 了 有 


关 Burrow 工作 原理 的 讨论 。Burrow 可 以 用 于 监控 集 群 所 有 由 注 费 者 ， 也 可 以 用 


于 监控 多 个 集群 ， 而 且 可 以 很 容易 被 集成 到 现 有 
如 果 没 有 其 他 选择 ， 消 费 考 客 户 端的 records- 


者 状态 的 部 分 视图 。 不 过 ， 仍 然 强烈 建议 使 用 像 Burrow 这 样 的 外 部 监控 系统 


10.5“” 端 到 端 监控 


我 们 推荐 使 用 的 另 一 种 外 部 监控 系统 是 端 到 端的 监 


的 监控 和 告警 系统 里 。 
lag-max 指标 提供 了 有 关 消 


。 四 


监控 系统 ， 它 为 Kafka 集群 的 健 


康 状 态 提供 了 种 客户 端 视图 。 滑 费 者 和 生 户 者 
集群 可 能 出 现 了 问题 ， 但 这 里 有 猜想 的 成 分 ， 因 


客户 端 有 一 些 度 量 指标 能 够 说 明 
为 延 时 的 增加 有 可 能 是 | 客 广 


端 、 网 络 或 Kafka 本 身 引起 的 。 另 外 ， 用 户 原本 


的 工作 可 能 只 4 是 管 管理 Kafka 集 -不 


群 ， 但 现在 也 需要 监控 客户 端 。 现 在 只 需要 回答 以 下 两 个 简单 的 问题 


。 可 以 向 Kafka 集群 生成 消息 吗 ? 
。 可 以 从 Kafka 集群 读 取 消息 吗 ? 


理想 情况 下 ， 用 户 可 能 会 希望 每 一 个 主题 都 允许 这 些 操作 ， 但 要 为 此 向 每 一 个 主 


题 注入 人 为 的 流量 是 不 合理 的 。 所 以 ， 可 以 考虑 


是 否 每 个 broker 都 允许 这 些 操 


作 ， 而 这 正 征 Kafka Monitor 要 做 的 事情 。 该 工具 由 LinkedIn 的 Kafka 团队 开发 


开 开 源 ， 它 持续 地 向 一 个 横 跨 集群 所 有 broker 的 主题 生成 消息 ， 并 读 取 这 些 消 


。 它 对 每 个 broker 的 生产 请 求 和 读 取 请 求 的 可 用 性 进行 上 度量， 包括 从 生产 到 读 


到 的 瑞 体 时 时 这 种 类 型 的 监控 对 于 验证 Kafka 


集群 的 运行 状态 来 说 是 非常 有 价 


值 的 ， 因 为 Kafka broker 本 身 无 法 告知 客户 端 是 否 能 够 正常 使 用 集群 。 


10.6 ”总 结 


An 一 器 


监控 是 运行 Kafka 的 一 个 重要 组 成 部 分 ， 这 也 是 为 什么 有 那么 多 的 团队 在 这 上 面 
花费 了 那么 多 时 间 。 很 多 组 织 使 用 Kafka 处 理 千 万 亿 字 节 级 别 的 数据 流 。 确保 数 
据 的 持续 性 和 不 丢失 消息 是 一 个 关键 性 的 业务 需求 。 作 为 Kafka 集群 的 运 维 人 
ee 同时 ， 要 协助 用 户 监 控 他 们 的 应 用 
旦 序 。 


本 章 介绍 了 如 何 监控 Java 应 用 程序 ， 特 别 是 Kafka 应 用 程序 。 首 先 介绍 了 broker 
的 一 些 度量 指标 ， 接 着 介绍 了 Java 和 操作 系统 的 监控 以 及 日 志 ， 然 后 详细 地 介绍 
了 Kafka 客户 端的 监控 ， 包 括 配 额 的 监控 ， 最 后 讨论 了 如 何 使 用 外 部 监控 系统 进 
行 消费 项 延 时 监控 以 及 如 何 进行 端 到 端的 集群 可 用 性 监控 。 本章 虽 然 没 有 列 出 所 
有 可 用 的 度量 指标 ， 但 已 经 涵盖 了 最 为 关键 的 部 分 
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Kafka 一 般 被 认为 是 一 个 强大 的 消息 总 线 ， 可 以 传递 事件 流 ， 但 没有 处 理 和 转换 
事件 的 能 力 。Kafka 可 靠 的 传递 能 力 让 它 成 为 流 式 处 理 系统 完美 的 数据 来 源 。 很 
多 基于 Kafka 构建 的 流 式 处 理 系统 都 将 Kafka 作为 唯一 可 靠 的 数据 来 源 ， 如 
Apache Storm ~ Apache Spark Streaming、Apache Flink、Apache Samza 等 。 

有 时 候 ， 行 业 分 析 师 声称 这 些 流 式 处 理 系 统 与 那些 已 经 存在 了 二 十 多 年 的 复杂 事 
件 处 理 (CEP) 系统 没有 什么 两 样 。 但 是 流 式 处 理 系 统 却 很 成 功 ， 而 只 有 密 罕 可 
数 的 系统 在 采用 CEP， 他 们 为 此 感到 很 惊讶 。 笔 者 认为 ，CEP 的 主要 问题 在 于 缺 
少 事件 流 的 处 理 能 力 。 随 着 Kafka 越 来 越 流行 ， 最 初 作 为 简单 的 消息 总 线 ， 后 来 
成 为 一 种 数据 集成 系统 。 很 多 公司 的 系统 里 都 包含 了 大量 有 价值 的 数据 流 ， 它 们 
井然 有 序 地 存在 了 很 长 时 间 ， 好 像 在 等 待 一 个 流 式 处 理 框 架 的 出 现 。 换 句 话说 ， 
在 出 现 数据 库 之 前 ， 效 据 的 处 理 是 一 项 艰巨 的 任务 。 类似 地 ， 因 为 缺少 能 够 提供 
可 靠 存 储 和 集成 的 流 式 平台 ， 流 式 处 理 的 发 展 也 受到 了 阻碍 。 


从 0.10.0 版 本 开始 ，Kafka 不 仅 为 每 一 个 流行 的 流 式 处 理 框 架 提 供 了 可 靠 的 数据 
来 源 ， 还 提供 了 一 个 强大 的 流 式 处 理 类 库 ， 并 将 其 作为 客户 端 类 库 的 一 部 分 。 这 
样 ， 开 发 人 员 就 可 以 在 应 用 程序 里 读 取 、 人 处 理 和 生成 事件 ， 而 不 需要 再 依赖 外 部 
的 处 理 框架 。 


本 草 将 以 解释 什么 是 流 式 处 理 作为 开头 《因为 这 个 术语 经 常 被 人 误解 》， 然 后 讨 
论 流 式 处 理 的 些 基 本 概念 和 流 式 处 理 系统 常用 的 设计 模式 ， 然后 深入 介绍 
Kafka 的 流 式 处 理 类 库 ， 包 括 它 的 目标 和 架构 ， 接 着 将 会 给 出 一 个 示例 ， 介 绍 如 
何 使 用 Kafka Streams (以 下 简称 Streams) 来 计算 股价 移动 平均 数 ， 最 后 讨论 流 
式 处 理 的 其 他 使 用 场景 ， 并 在 结束 部 分 列 出 为 Kafka 选择 流 式 处 理 框架 (如 果 有 


上 
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的 话 ) 的 参考 标准 。 本 章 主要 是 简单 地 介绍 流 式 处 理 ， 并 不 会 涵盖 Streams 的 每 
一 个 特性 ， 也 不 会 对 每 一 个 现 有 的 流 式 处 理 框架 进行 比较 ， 因 为 光 这 些 内 容 就 可 
以 单独 写成 一 本 其 至 好 几 本 书 了 。 


11.1 什么 是 流 式 处 理 


a 因为 有 太 多 关于 流 式 处 理 的 定义 ， 它们 混淆 了 
实现 细节 、 性 能 需求 、 数 据 模型 和 软件 工程 的 各 个 方面 。 笔 者 亲 有 眼目 腾 了 发 生 在 
关系 型 数据 库 上 的 类似 究 午 ， 关系 模型 的 抽象 定义 总 是 夹杂 了 数据 库 引 警 的 实现 
细节 和 特定 局 限 性 。 


流 式 处 理 领域 还 处 在 发 展 阶段 ， 有 一 些 流行 的 实现 方案 ， 其 处 理 方式 可 能 很 特 
别 ， 或 者 有 特定 的 局 限 ， 但 这 并 不 能 说 明 它 们 的 实现 细节 就是 演 式 处 理 加 有 的 组 
部 分 。 


先 来 看 看 什么 是 数据 流 〈 也 被 称 为 “事件 流 ” 或 “ 流 数据 2 。 首 先 ， 数 据 流 是 无 边 
界 数据 集 的 抽象 表示 。 无 边界 意味 着 无 限 和 持续 增长 。 无 边界 数据 集 之 所 以 是 无 
限 的 ， 是 因为 随 着 时 间 的 推移 ， 新 的 记录 会 不 断 加 入 进来 。 这 个 定义 已 经 被 包括 
Google 和 Amazon 在 内 的 大 部 分 公司 所 采纳 。 


这 个 简单 的 模型 (事件 流 ) 可 以 表示 很 多 业务 活动 ， 比 如 信用 卡 交 易 、 股 票 交 
易 、 包 囊 递 送 、 和 制造 商 设备 传感器 发 出 的 事件 、 发 送出 
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去 的 邮件 、 游 戏 里 物体 的 移动 ， 。 这 个 清单 是 无 穷 无 尽 的 ， 因 为 几乎 每 一 件 
事情 都 可 以 被 看 成 事件 的 序列 。 

除了 没有 边界 外 ， 事 件 流 模型 还 有 其 他 一 些 属 性 。 

事件 流 是 有 序 的 


事件 的 发 生 总 是 有 个 先后 顺序 。 以 金融 活动 事件 为 例 ， 先 将 钱 存 进账 户 后 再 
化 钱 ， 这 与 先 伦 钱 再 还 钱 的 次 序 是 完全 不 一 样 的 。 后 者 会 出 现 透 文 ， 而 前 者 不 
会 。 这 是 事件 流 与 数据 库 表 的 不 同 点 之 一 。 数据 库 表 蛙 的 记录 是 无 序 的 ， 而 SQL 
语法 中 的 order by 并 不 是 关系 模型 的 组 成 部 分 ， 它 是 为 了 报表 查询 而 添加 的 。 


不 可 变 的 数据 记录 


事件 一 旦 发 生 ， 束 不 能 被 改变 。 一 个 金融 交易 被 取消 ， 并 不 是 说 它 谍 消失 
了 ， 相 反 ， 这 需要 往事 件 流 里 添加 一 个 额外 的 事件 ， 表 示 前 一 个 交易 的 取消 操 
作 。 顾 客 的 一 次 退货 并 不 意味 着 之 前 的 销售 记录 被 删除 ， 相 反 ，， | 
一 个 额外 的 事件 记录 下 来 。 这 是 数据 流 与 数据 表 之 间 的 男 一 个 不 同 ， | 
除 和 修改 数据 表 里 的 记录 ， 但 这 些 操作 只 不 过 是 发 生 在 数据 库 里 的 事务 这 些 事 
务 可 以 被 看 成 事件 流 。 假 设 你 对 数据 库 的 二 进 制 日 志 (bin log) 、 预 写 式 日 志 
(WAL) 和 重 做 日 志 (redo log) 的 概念 都 很 熟悉 ， 那 么 就 会 知道 ， 如 果 往 数据 


库 表 插 入 一 条 记录 ， 然 后 将 其 删除 ， 表 里 避 ® 不 会 再 有 这 条 记录 。 但 重 做 日 志 里 包 
含 了 两 个 事务 ， 插 入 事务 和 删除 事务 。 


事件 流 是 可 重播 的 


这 是 事件 流 非常 有 价值 的 一 个 属性 。 用 户 可 以 很 容易 地 找 出 那些 不 可 重播 的 
流 〈 流 经 套 接 字 的 TCP 数据 包 就 是 不 可 重播 的 ) ， 但 对 于 大 多 数 业 务 来 说 ， 重 播 
发 生 在 几 个 月 前 (甚至 几 年 前 ) 的 原始 事件 流 是 一 个 很 重要 的 需求 。 可 能 是 为 了 
党 试 使 用 新 的 分 析 方 法 纠正 过 去 的 错误 ， 或 是 为 了 进行 审计 。 这 也 就 是 为 什么 我 
们 相信 Kafka 能 够 让 现代 业务 领域 的 流 式 处 理 大 获 成 功 一 ”可 以 借助 Kafka 来 捕 
0 流 式 处 理 充其量 只 是 数据 科学 实验 室 里 的 

人 玩具 而 已 。 


如 果 事 件 流 的 定义 里 没有 提 到 事件 所 包含 的 数据 和 每 秒 钟 的 事件 数量 ， 那 么 它 就 
变 得 毫 无 意义 。 不 同系 统 之 间 的 数据 是 不 一 样 的 ， 事 件 可 以 很 小 《有 时 候 只 有 几 
个 字 节 ) ， 也 可 以 很 大 (包含 很 多 消息 头 的 XML 消息 ) ， 它 们 可 以 是 完全 非 结 
构 化 的 键 { 直 对 ， 可 以 是 半 结 构 化 的 JSON， 也 可 以 是 结构 化 的 Avro 或 Protobuf 。 
虽然 数据 流 经 常 被 视 为 “大 数据 *， 并 且 包 含 了 每 秒 钟 数 百 万 的 事件 ， 不 过 这 里 所 
讨论 的 技术 同样 适用 (通常 是 更 加 适用 ) 于 小 一 点 的 事件 流 ， 可 能 每 秒 钟 甚至 每 
分 钟 只 有 几 个 事件 。 


知道 什么 是 事件 流 以 后 ， 是 时 候 了 解 “ 流 式 处 理 ”* 的 真正 含义 了 。 流 式 处 理 是 指 实 
时 地 处 理 一 个 或 多 个 事件 流 。 流 式 处 理 是 一 种 编程 范式 ， 就 你 请 求 与 响 应 范式 和 
批 处 理 范式 那样 。 下 面 将 对 这 3 种 范式 进行 比较 ， 以 便 更 好 地 理解 如 何在 软件 架 
构 中 应 用 流 式 处 理 。 


请 求 与 响应 


这 是 延迟 最 小 的 一 种 范式 ， 啊 应 时 间 处 于 亚 毫 秒 到 之 秒 之 间 ， ， 
一 段 非 负 稳 是。 这 种 处 理 模式 一 般 是 阻塞 的 ， 应 用 程序 向 处 理 系统 发 出 请 求 ， 然 
待 响应 。 在 数据 库 领 域 ， 这 种 范式 就 是 线 上 交易 处 理 (OLTP) 。 销 售 点 
系统 、 信 用 卡 处 理 系 统 和 基于 时 间 的 追踪 系统 一 般 都 使 用 这 种 范式 。 


批 处 理 


这 种 范式 具有 高 延迟 和 高 吞吐 量 的 特点 。 处 理 系统 按照 设 定 的 时 间 启 动 处 理 
进程 ， 比 如 每 天 的 下 午 两 点 开始 启动 ， 每 小 时 启动 一 次 等 。 它 读 取 所 有 的 输入 数 
据 (从 上 一 次 执行 之 后 的 所 有 可 用 数据 ， 或 者 从 月 初 开始 的 所 有 数据 等 ) ， 输 出 
结果 ， 然 后 等 待 下 一 次 启动 。 处 理 时 间 从 几 分 钟 到 几 小 时 不 等 ， 并 且 用 户 从 结果 
重读 到 仿生 是 上 数据 在 数据 库 领域 ， 它 们 束 是 数据 仓库 (DWH) 或 商业 智能 
(BI 系统 。 它 们 每 天 加 载 巨大 批 次 的 数据 ， 并 生成 报表 ， 用 户 在 下 一 次 加 载 数 
据 之 前 看 到 的 都 是 相同 的 报表 。 从 规模 上 来 说 ， 这 种 范式 既 高 效 又 经 济 。 但 在 近 
几 年 ， 为 了 能 够 更 及 时 、 高 效 地 作出 决策 ， 业 务 要 求 在 更 短 的 时 间 内 能 提供 可 用 


的 数据 ， 这 就 给 那些 为 探索 规模 经 济 而 开发 却 无 法 提供 低 延 迟 报表 的 系统 带 来 了 
巨大 的 压力 。 


流 式 处 理 


这 种 范式 介 于 上 述 两 者 之 间 。 大 部 分 的 业务 不 要 求 亚 毫秒 级 的 啊 应 ， 不 过 也 
接受 不 了 要 等 到 第 二 天 才 知 道 结 采 。 大 部 分 业务 流程 都 是 持续 进行 的 ， 只 要 业务 
报告 保持 更 新 ， 业 务 产品 线 能 够 持续 啊 应 ， 那 么 业务 流程 就 可 以 进行 下 去 ， 而 无 
需 等 竺 特定 的 响应 ， 也 不 要 求 在 几 毫 秒 内 得 到 啊 应 。 一 些 业务 流程 具有 持续 性 和 
非 阻塞 的 等 点， 比如 针对 可 疑 信 用 卡 交 易 的 警告 、 网 络 警 告 、 根 据 供应 关系 实时 
调整 价格 、 跟 踩 包 圳 。 


流 的 定义 不 依赖 任何 一 个 特定 的 框架 、API 或 特性 。 只 要 持续 地 从 一 个 无 边界 的 
数据 集 读 取 数据 ， 然 后 对 它们 进行 处 理 并 生成 结果 ， 那 束 是 在 进行 流 式 处 理 。 重 
点 是 ， 整 个 处 理 过 程 必须 是 持续 的 。 一 个 在 每 天 凌晨 两 点 局 动 的 流程 ， 从 流 里 读 
取 500 条 记录 ， 生 成 结果 ， 然 后 结束 ， 这 样 的 流程 不 是 流 式 处 理 。 


11.2” 流 式 处 理 的 一 些 概念 


流 式 处 理 的 很 多 方面 与 普通 的 数据 处 理 是 很 相似 的 : 写 一 些 代 码 来 接收 数据 ， 对 
数据 进行 处 理 ， 可 能 做 一 些 转 换 、 聚 合 和 增强 的 操作 ， 然 后 把 生成 的 结果 输出 到 
某 个 地 方 。 不 过 流 式 处 理 有 一 些 特有 的 概念 ， 对 于 那些 有 数据 处 理 经 验 但 是 首次 
尝试 开发 流 式 处 理应 用 程序 的 人 来 说 ， 很 容易 造成 混 消 。 下 面 将 试 着 澄清 这 些 概 


11.2.1 ”时间 


时 间或 许 就 是 流 式 处 理 最 为 重要 的 概念 ， 也 是 最 让 人 感到 困惑 的 。 在 讨论 分 布 式 

系统 时 ， 该 如 何 理解 复杂 的 时 间 概 念 ? 推荐 阅读 Justin Sheehy 的 论文 “There is No 
Now”。 在 流 式 处 理 里 ， 时 间 是 一 个 非常 重要 的 概念 ， 因 为 大 部 分 流 式 应 用 的 操作 
都 是 基于 时 间 窗 口 的 。 例 如 ， 流 式 应 用 可 能 会 计算 股价 的 5 分钟 移动 平均 数 。 如 

果 生 产 者 因为 网 络 问题 离线 了 2 小 时 ， 然 后 融 着 2 小 时 的 数据 重新 连 线 ， 我 们 需 

0 。 这 些 数据 大 部 分 都 已 经 超过 了 5 分钟， 而 且 没 有 参 
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流 式 处 理 系统 一 般 包 含 如 下 几 个 时 间 概 念 。 
事件 时 间 

事件 时 间 是 指 所 追踪 事件 的 发 生 时 间 和 记录 的 创建 时 间 。 例 如 ， 度 量 的 获取 
时 间 、 商店 里 商品 的 出 售 时 间 、 网 站 用 户 访问 网 页 的 时 间 ， 等 等 。 在 Kafka 


0.10.0 和 更 高 版 本 里 ， 生 产 者 会 自动 在 记录 中 添加 记录 的 创建 时 间 。 如 果 这 个 时 
间 惟 与 应 用 程序 对 “事件 时 间 ” 的 定义 不 一 样 ， 例 如 ，Kafka 的 记录 是 基于 事件 发 


生 后 的 数据 库 记 录 创 建 的 ， 那 就 需要 自己 设置 这 个 时 间 礁 字段 。 在 处 理 数据 流 
时 ， 事 件 时 间 是 很 重要 的 。 


日 志 追 加 时 间 


志 追 加 时 间 是 指 事件 保存 到 broker 的 时 间 。 在 Kafka 0.10.0 和 更 高 版 本 

里 如 果 启用 了 自动 添加 时 间 戳 的 功能 或 者 记录 是 使 用 旧版 本 的 生产 者 客户 端 
生成 的 ， 而 且 没 有 包含 时 间 惟 ， 那 久 bioker 会 会 在 接收 这 些 记录 时 自动 添加 时 间 
惟 。 这 个 时 间 戳 一 般 与 流 式 处 理 没 有 太 大 关系 ， 因 为 用 户 一 般 只 对 事件 的 发 生 时 
间 感 兴趣 。 例 如 ， et 天 实际 
生产 的 设备 数量 ， 尽 管 这 些 事件 有 可 能 因为 网 络 问题 到 了 第 二 天 才 进 入 Kafka 。 
a ee 
记录 创建 之 后 ， 这 个 时 间 就 不 会 发 生 改变 。 


处 理 时 间 


处 理 时 间 是 指 应 用 程序 在 收 到 事件 之 后 要 对 其 进行 处 理 的 时 间 。 这 个 时 间 可 
以 是 在 事件 发 生 之 后 的 儿 毫 秒 、 几 小 时 或 几 天 。 同 一 个 事件 可 能 会 被 分 配 不 同 的 
时 间 戳 ， 这 取决 于 应 用 程序 何 时 读 取 这 个 事件 。 如 采 应 用 程序 使 用 了 两 个 线程 来 
这 个 时 间 戳 也 会 不 一 样 ! 所 以 这 个 时 间 戳 非常 不 可 靠 ， 应 该 避 


A 注意 时 区 问题 


在 处 理 与 时 间 有 关 的 问题 时 ， 需 要 注意 时 区 问题 。 整 个 数据 管道 应 该 使 用 同 
一 个 时 区 ， 否 则 操作 的 结果 就 会 出 现 混 消 ， 变 得 毫 无 意义 。 如 果 时 区 问题 不 
可 和 避免， 那么 在 处 理事 件 之 前 需要 将 它们 转换 到 同一 个 时 区 ， 这 就 要 求 记录 
里 同时 包含 时 区 信息 。 


11.2.2 ”状态 


如 果 只 是 单独 处 理 每 一 个 事件 ， 那 么 流 式 处 理 就 很 简单 。 例 如 ， 如 果 想 从 Kafka 
读 取 在 线 购物 交易 事件 流 ， 找 出 金额 超过 10 000 美元 的 交易 ， 并 将 结果 通过 邮件 
。 合 销售 人 员 ， 那 么 可 以 使 用 Kafka 消费 者 客户 端 和 SMTP 库 ， 几 行 代码 就 可 
] 下 


如 有 果 操 作 里 包含 了 多 个 事件 ， 流 式 处 理 就 会 变 得 很 有 意思 ， 比 如 根据 类 型 计算 事 
件 的 数量 、 移 动 平均 数 、 合 并 两 个 流 以 便 生 成 更 丰富 的 信息 流 。 在 这 些 情况 下 ， 

光 处 理 单 个 事件 是 不 够 的 ， 用 户 需 要 跟踪 更 多 的 信息 ， 比 如 这 个 小 时 内 看 到 的 每 
种 类 型 事件 的 个 数 、 需 要 合并 的 事件 、 将 每 种 类 型 的 事件 值 相 加 ， 等 等 。 事 件 与 
事件 之 间 的 信息 被 称 为 “状态 ”。 


这 些 状态 一 般 被 保存 在 应 用 程序 的 本 地 变量 里 。 例 如 ， 使 用 散 列 表 来 保存 移动 计 
数 器 。 事 实 上 ， 本 书 的 很 多 例子 就 是 这 么 做 的 。 不 过 ， 这 不 是 一 种 可 靠 的 方法 ， 
因为 如 果 应 用 程序 关闭 ， 状 态 就 会 丢失 ， 结 果 就 会 发 生变 化 ， 而 这 并 不 是 用 户 希 
望 看 到 的 。 所 以 ， 要 小 心地 持久 化 最 近 的 状态 ， 如 果 应 用 程序 重 局 ， 要 将 其 恢 


RU 


流 式 处 理 包 含 以 下 几 种 类 型 的 状态 。 
本 地 状态 或 内 部 状态 


这 种 状态 只 能 被 单个 应 用 程序 实例 访问 ， 它 们 一 般 使 用 内 和 骸 在 应 用 程序 里 的 
数据 库 进 行 维护 和 管理 。 本 地 状态 的 优势 在 于 它 的 速度 ， 不 足 之 处 在 于 它 受到 内 
存 大 小 的 限制 。 所 以 ， 流 式 处 理 的 很 多 设计 模式 都 将 数据 拆 分 到 多 个 子 流 ， 这 样 
就 可 以 使 用 有 限 的 本 地 状态 来 处 理 它们 。 


外 部 状态 


这 种 状态 使 用 外 部 的 数据 存储 来 维护 ， 一 般 使 用 NoSQL 系统 ， 比 如 
Cassandra。 使 用 外 部 存储 的 优势 在 于 ， 它 没有 大 小 的 限制 ， 而 且 可 以 被 应 用 程序 
的 多 个 实例 访问 ， 甚 至 被 不 同 的 应 用 程序 访问 。 不 足 之 处 在 于 ， 引 入 额外 的 系统 
会 造成 更 大 的 延迟 和 复杂 性 。 大 部 分 流 式 处 理应 用 尽量 避免 使 用 外 部 存储 ， 或 者 
将 信息 缓存 在 本 地 ， 减 少 与 外 部 存储 发 生 交 互 ， 以 此 来 降低 延迟 ， 而 这 就 引入 ] 
如 何 维护 内 部 和 外 部 状态 一 致 性 的 问题 。 


11.2.3” 流 和 表 的 二 元 性 


大 家 都 熟悉 数据 库 表 ， 表 就 是 记录 的 集合 ， 每 个 表 都 有 一 个 主键 ， 并 包含 了 一 系 
列 由 schema 定义 的 属性 。 表 的 记录 是 可 变 的 (可 以 在 表 上 面 执行 更 新 和 删除 操 
作 ) 。 我 们 可 以 通过 查询 表 数 据 获知 某 一 时 刻 的 数据 状态 。 例 如 ， 通 过 查询 
CUSTOMERS_CONTACTS 这 个 表 ， 就 可 以 获取 所 有 客户 的 联系 信息 。 如 果 表 被 
设计 成 不 包含 历史 信息 ， 那 么 就 找 不 到 客户 过 去 的 联系 信息 了 。 


在 将 表 与 流 进 行 对 比 时 ， 可 以 这 么 想 : 流 包 含 了 变更 一 一 流 是 一 系列 事件 ， 每 个 
事件 就是 一 个 变更 。 表 包含 了 当前 的 状态 ， 是 多 个 变更 所 产生 的 结果 。 所 以 说 ， 
表 和 流 是 同一 个 硬币 的 两 面 一 一 世界 总 是 在 发 生变 化 ， 用 户 有 时 候 关 注 变更 事 
件 ， 有 时 候 则 关注 世界 的 当前 状态 。 如 果 一 个 系统 允许 使 用 这 两 种 方式 来 查看 数 
据 ， 那 么 它 束 比 只 支持 一 种 方式 的 系统 强大 。 


为 了 将 表 转 化 成 流 ， 需 要 捕捉 到 在 表 上 所 发 生 的 变更 ， 

将 “insert”、“update” 和 “delete” 事 件 保存 到 流 里 。 大 部 分 数据 库 提 供 了 用 于 捕捉 变 
更 的 “Change Data Capture”(CDC) 解决 方案 ，Kafka 连接 器 将 这 些 变更 发 送 到 
Kafka， 用 于 后 续 的 流 式 处 理 。 


后 


为 了 将 流转 化 成 表 ， 需 要 “应 用 ” 流 里 所 包含 的 所 有 变更 ， 这 也 叫 作 流 的 “物化 ”。 
首先 在 内 存 里 、 内 部 状态 存储 或 外 部 数据 库 里 创建 一 个 表 ， 然 后 从 头 到 尾 遍 历 流 
里 的 所 有 事件 ， 逐 个 地 改变 状态 。 在 完成 这 个 过 程 之 后 ， 得 到 了 一 个 表 ， 它 代表 
了 某 个 时 间 点 的 状态 。 

假设 有 一 个 鞋 店 ， 某 零售 活动 可 以 使 用 一 个 事件 流 来 表示 : 

“红色 、 蓝 色 和 绿色 鞋子 到 货 

“ 划 色 鞋子 卖 出 ” 

“红色 鞋子 卖 出 ” 

“ 划 色 鞋子 退货 ” 

“绿色 鞋子 卖 出 ” 

如 果 想 知道 现在 仓库 里 还 有 哪些 库存 ， 或 者 到 目前 为 止 赚 了 多 少 钱 ， 需 要 对 视图 
进行 物化 。 图 11-1 告诉 我 们 ， 目 前 还 有 蓝 色 和 黄色 鞋子 ， 账 户 上 有 170 美元 。 如 
果 想 知道 鞋 店 的 繁忙 程度 ， 可 以 查看 整个 事件 流 ， 会 发 现 总 共 发 生 了 5 个 交易 ， 
还 可 以 查 出 为 什么 蓝 色 鞋子 被 退货 。 


仓库 变更 事件 流 


en 


Er 
er| wm 


图 11-1: 物化 仓库 变更 事件 流 
11.2.4 ”时 间 窗 口 


大 部 分 针对 流 的 操作 都 是 基于 时 间 窗 口 的 ， 比 如 移动 平均 数 、 一 周 内 销量 最 好 的 
产品 、 系 统 的 99 百 分 位 等 。 网 个 流 的 合并 措 作 也 古 基 于 时 间 窗 口 的 ， 我 们 会 合 
并 发 生 在 相同 时 间 片 段 上 的 事件 。 不 过 ， 很 少 人 会 停 下 来 仔细 想 想 时 间 窗 口 的 类 
型 。 例 如 ， 在 计算 移动 平均 数 时 ， 需要 知 半 久 下 人 个 问题。 


。 窗口 的 大 小 。 是 基于 5 分钟 进行 平均 ， 还 是 15 分 钟 ， 或 者 一 天 ? 窗口 越 
小 ， 就 能 越 快 地 发 现 变更 ， 不 过 噪声 也 越 多 。 窗 口 武大， 变更 就 越 平 滑 ， 不 
过 延迟 也 越 严 重 ， 如 果 价 格 涨 了 ， 需 要 更 长 的 时 间 才 能 看 出 来 。 

。 窗口 移动 的 频率 (“移动 间隔 ”) 。5 分 钟 的 平均 数 可 以 每 分 钟 变 化 一 次 ， 或 
考 每 秒 名 变化 次， 或 者 每 当 有 新 事件 到 达 时 发 生变 化 。 如 果 “ 移 动 间隔 ”与 

窗口 大 小 相等 ， 这 种 情况 被 称 为 “滚动 窗口 (tumbling window) ”。 如 果 窗 口 
随 着 每 一 条 记录 移动 ， 这 种 情况 被 称 为 “滑动 窗口 (sliding window) ”。 

。 窗口 的 可 更 新 时 间 多 长 。 假 设计 算 了 00:00 到 00:05 之 间 的 移动 平均 数 ， 一 

个 小 时 之 后 又 得 到 了 一 些 “ 事 件 时 间 ?” 是 00:02 的 事件 ， 那 么 需要 更 新 00:00 
到 00:05 这 个 窗口 的 结果 中? 或 省 就 这 入 算 了 ?理想 情况 下 ”可 以 定义 一 个 
时 间 段 ， 在 这 个 时 间 段 内 ， 事 件 可 以 被 添加 到 与 它们 相应 的 时 间 片 段 里 。 如 
果 事 件 处 于 4 个 小 时 以 内 ， 那 么 束 更 新 它们 ， 否 则 就 忽略 它们 。 


窗口 可 以 与 时 间 对 齐 ， 比 如 5 分钟 的 窗口 如 果 每 分 钟 移动 一 次 ， 那 么 第 一 个 分 片 
可 以 是 00:00~00:05， 第 二 个 就 是 00:01~00:06。 它 也 可 以 不 与 时 间 对 齐 ， 应 用 可 
以 在 任何 时 候 启 动 ， 那 么 第 一 个 分 片 有 可 能 是 03:17~03:22。 滑 动 窗口 永远 不 会 与 
时 间 对 齐 ， 因 为 只 要 有 新 记录 到 达 ， 它 们 就 会 发 生 移 动 。 图 11-2 展示 了 这 两 种 时 
间 窗 口 的 不 同 之 处 。 


滚动 窗口 一 一 5 分 钟 的 时 间 窗 口 ， 每 5 分 钟 滚动 一 次 


由 


0 5 10 15 
时 间 
跳跃 窗口 一 一 5 分 钟 的 时 间 窗 口 ， 每 分 钟 跳 跃 一 次 


窗口 重合 ， 事 件 属 于 多 个 时 间 窗 口 
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图 11-2: 滚动 窗口 和 跳跃 窗口 的 区 别 
11.3” 流 式 处 理 的 设计 模式 


每 一 个 流 式 处 理 系统 都 不 一 样 ， 从 基本 的 消费 者 、 处 理 逻 辑 和 生产 者 的 组 合 ， 到 
使 用 了 Spark Streaming 和 机 器 学 习 软 件 包 的 复杂 集群 ， 以 及 其 他 很 多 处 于 中 Et 
置 的 组 件 。 不 过 有 一 些 基 本 的 设计 模式 和 解决 方案 可 以 满足 流 式 处 理 架 构 的 常 
需求 。 下 面 将 介绍 一 些 这 样 的 模式 ， 并 举例 说 明 如 何 使 用 这 种 模式 。 


11.3.1 单个 事件 处 理 


处 理 单个 事件 是 流 式 处 理 最 基本 的 模式 。 这 个 模式 也 叫 map 或 filter 模式 ， 因 为 
它 经 常 被 用 于 过 滤 无 用 的 事件 或 者 用 于 转换 事件 (map 这 个 术语 是 从 Map-Reduce 
模式 中 来 的 ，map 阶段 转换 事件 ，reduce 阶段 聚合 转换 过 的 事件 ) 。 


在 这 种 模式 下 ， 应 用 程序 读 取 流 中 的 事件 ， 修 改 它们 ， 然 后 把 事件 生成 到 男 一 个 
流 上 。 比 如 ， 一 个 应 用 程序 从 一 个 流 中 读 取 日 志 消 息 ， 并 把 ERROR 级 别 的 消息 
写 到 高 优先 级 的 流 中 ， 同 时 把 其 他 消息 写 到 低 优先 级 的 流 中 。 再 如 ， 一 个 应 用 程 
序 从 流 中 读 取 事件 ， 并 把 事件 从 JSON 格式 改 为 Avro 格式 。 这 类 应 用 程序 不 需要 
在 程序 内 部 维护 状态 ， 因 为 每 一 个 事件 都 是 独立 处 理 的 。 这 也 意味 着 ， 从 错误 中 
恢复 或 进行 负载 均衡 会 非常 容易 ， 因 为 不 需要 进行 恢复 状态 的 操作 ， 只 需要 将 事 
件 交 给 应 用 程序 的 男 一 个 实例 去 处 理 。 


这 种 模式 可 以 使 用 一 个 生产 者 和 一 个 消费 者 来 实现 ， 如 图 11-3 所 示 。 


A 


图 11-3: 单 事件 处 理 拓扑 


11.3.2 ”使 用 本 地 状态 


大 部 分 流 式 处 理应 用 程序 关心 的 是 如 何 聚 合 信 息 ， 特 别 是 基于 时 间 窗 口 进行 聚 
合 。 例 如 ， 找 出 每 天 最 低 和 最 高 的 股票 交易 价格 并 计算 移动 平均 数 。 


要 实现 这 些 聚 合 操作 ， 需 要 维护 流 的 状态 。 在 本 例 中 ， 为 了 计算 每 天 的 最 小 价格 
和 平均 价格 ， 需 要 将 最 小 值 和 最 大 值 保存 下 来 ， 并 将 它们 与 每 一 个 新 值 间 行 对 
比 。 


这 些 操作 可 以 通过 本 地 状态 (而 不 是 共 a 因为 本 例 中 的 每 一 个 操 
作 都 是 基于 组 的 聚合 操作 ， 如 图 11-4 所 示 “。 例 如 ， 基 于 各 个 股票 代码 进行 聚合 ， 
而 不 是 基于 整个 股票 市 场 。 0 个 Kafka 分 区 器 来 确保 具有 相同 股票 代 
码 的 事件 总 是 被 写 入 相同 的 分 区 。 应 用 程序 的 每 个 实例 从 分 配给 它们 的 分 区 上 获 
取 事 件 【这 是 Kafla 的 消费 者 保 注 ” 。 也 就 是 说 ， 应 用 得 序 的 每 二 个 实 前 部 可 以 
维护 一 个 股票 代码 子 集 的 状态 。 
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图 11-4: 使 用 本 地 状态 的 事件 拓扑 


如 有 果 流 式 处 理应 用 程序 包含 了 本 地 状态 ， 情 况 就 会 变 得 非常 复杂 ， 而 且 还 需要 解 
决 下 列 的 一 些 问 题 。 


内 存 使 用 
应 用 实例 必须 有 可 用 的 内 存 来 保存 本 地 状态 。 
持久 化 


要 确保 在 应 用 程序 关闭 时 不 会 丢失 状态 ， 并 且 在 应 用 程序 重启 后 或 者 切换 到 
另 一 个 应 用 实例 时 可 以 恢复 状态 。Streams 可 以 很 好 地 处 理 这 些 间 题 ， 它 使 用 内 
髓 的 RocksDB 将 本 地 状态 保存 在 内 存 里 ， 同 时 持久 化 到 磁盘 上 ， 以 便 在 重启 后 可 
以 恢复 。 本 地 状态 的 变更 也 会 被 发 送 到 Kafka 主题 上 。 如 果 Streams 节点 月 江 ， 
本 地 状态 并 不 会 丢失 ， 可 以 通过 重新 读 取 Kafka 主题 上 的 事件 来 重建 本 地 状态 。 
例如 ， 如 果 本 地 状态 包含 “TBM 当前 最 小 价格 是 167.19”， 并 且 已 经 保存 到 ] 


Kafka 上 ， 那 么 稍 后 就 可 以 通过 读 取 这 些 数据 来 重建 本 地 缓存 。 这 些 Kafka 主题 
使 用 了 压缩 日 志 ， 以 确保 它们 不 会 无 限量 地 增长 ， 方 便 重建 状态 。 


再 均衡 
有 时候， 分 区 会 被 重新 分 配给 不 同 的 消费 者 。 在 这 种 情况 下 ， 失 去 分 区 的 实 
例 必须 把 最 后 的 状态 保存 起 来 ， 同 时 获得 分 区 的 实例 必须 知道 如 何 恢复 到 正确 的 


:DA 


不 同 的 流 式 处 理 框架 为 开发 者 提供 了 不 同 的 本 地 状态 文 持 。 如 果 应 用 程序 需要 维 
护 本 地 状态 ， 那 么 就 要 知道 框 采 是否 提 供 了 文 持 。 本 章 的 末尾 将 会 对 一 些 框架 进 
行 简要 的 对 比 ， 不 过 软件 发 展 变化 太 快 ， 而 流 式 处 理 框 架 更 是 如 此 。 


11.3.3 ”多 阶段 处 理 和 重 分 区 


本 地 状态 对 按 组 聚合 操作 起 到 很 大 的 作用 。 但 如 采 需 要 使 用 所 有 可 用 的 信息 来 获 
得 一 个 结果 呢 ? 例如 ， 假 设 要 发 布 每 天 的 “前 10 支 ” 股 票 ， 这 10 文 股 票 需要 从 每 
天 的 交易 股票 中 挑选 出 来 。 很 显然 ， 如 有 果 只 是 在 每 个 应 用 实例 上 进行 处 理 是 不 够 
的 ， 因 为 10 文 股票 分 布 在 多 个 实例 上 ， 如 图 11-5 所 示 。 我 们 需要 一 个 两 阶段 解 
决 方案 。 首 先 ， 计 算 每 支 股票 当天 的 涨 跌 ， 这 个 可 以 在 每 个 实例 上 进行 。 然 后 将 
结果 写 到 一 个 包含 了 单个 分 区 的 新 主题 上 。 男 一 个 单独 的 应 用 实例 读 取 这 个 分 

区 ， 找 出 当天 的 前 10 支 股票 。 新 主题 只 包含 了 每 支 股 票 的 概要 信息 ， 比 其 他 包 
含 交易 信息 的 主题 要 小 很 多 ， 所 以 流量 很 小 ， 使 用 单个 应 用 实例 束 足 以 应 付 。 不 
过 ， 有 了 时候 需要 更 多 的 步 又 才能 生成 结果 。 


每 日 获 利 
或 损失 


图 11-5: 包含 本 地 状态 和 重 分 区 步骤 的 拓扑 


这 种 多 阶段 处 理 对 于 写 过 Map-Reduce 代码 的 人 来 说 应 该 很 熟悉 ， 因 为 他 们 经 

要 使 用 多 个 reduce 步骤 。 如 果 写 过 Map-Reduce 代码 ， 就 应 该 知道 ， se 
reduce 步骤 的 应 用 需要 被 隔离 开 来 。 与 Map-Reduce 不 同 的 是 ， 大 多 数 流 式 处 理 
框架 可 以 将 多 个 步骤 放 在 同一 个 应 用 里 ， 框 架 会 负责 调配 每 一 步 需要 运行 哪 一 个 
应 用 实例 (或 worker) 。 


11.3.4 ”使 用 外 部 查找 一 一 流 和 表 的 连接 


有 时 候 ， 流 式 处 理 需要 将 外 部 数据 和 流 集成 在 一 起 ,比如 使 用 保存 在 外 部 数据 库 
里 的 规则 来 验证 事务 ， 或 者 将 用 户 信 息 填 充 到 点 击 事件 当 


很 明显 ， 入 耳 便 用 外 部 查找 来 实现 数据 填充 ， 可 以 这 样 做 : 对 于 事件 流 里 的 每 一 
个 点 击 事件 ， 从 用 户 信息 表 里 查找 相关 的 用 户 信息 ， 从 中 抽取 用 户 的 年 龄 和 性 别 
信息 ， 把 它们 包含 在 点 击 事件 里 ， 然 后 将 事件 发 布 到 另 一 个 主题 上 ， 如 图 11-6 所 
不 ?° 


图 11-6: 使 用 外 部 数据 源 的 流 式 处 理 


这 种 方式 最 大 的 问题 在 于 ， 外 部 查找 会 之 来 严重 的 延迟 ， 一 般 在 5~15ms 之 间 。 
这 在 很 多 情况 下 是 不 可 行 的 。 。 另外， 外 部 数据 存储 也 无 法 接受 这 种 额外 的 负载 
流 式 处 理 系 统 每 秒 钟 可 以 处 理 10~50 万 个 事件 ， 而 数据 库 正 常情 况 下 每 秒 钟 
只 能 处 理 1 万 个 事件 ， 所 以 需要 伸缩 性 更 担 的 解决 方案 。 


下 钦 得 更 好 的 性 和 E 和 更 强 的 伸缩 性 ， 需 要 将 数据 库 的 信息 缓存 到 流 式 处 理应 用 
程序 里 。 不 过 ， 要 管理 好 这 个 缓存 也 是 一 个 挑战 。 比 如 ， 如 何 保证 缓存 里 的 数据 
征 最 新 的 ? 如 果 刷 新 太 频 繁 ， 那 么 仍然 会 对 数据 库 造 成 压力 ， 绥 存 也 避 ® 失 去 了 作 
用 。 如 果 刷 新 不 及 时 ， 那 么 流 式 处 理 中 所 用 的 数据 就 会 过 时 。 


如 果 能 够 捕捉 数据 库 的 变更 事件 ， 并 形成 事件 流 ， 流 式 处 理 作业 就 可 以 监听 事件 
流 ， 并 及 时 更 新 缓存 。 捕 捉 数 据 库 的 变更 事件 并 形成 事件 流 ， 这 个 过 程 被 称 为 
CDC 一 一 变更 数据 捕捉 (Change Data Capture) 。 如 果 使 用 了 Connect， 就 会 发 


现 ， 有 一 些 连 接 器 可 以 用 于 执行 CDC 任务 ， 把 数据 库 表 转 成 变更 事件 流 。 这 样 
就 拥有 了 数据 库 表 的 私有 副本 ， 一 旦 数据 库 发 生变 更 ， 用 户 会 收 到 通知 ， 并 根据 
变更 事件 更 新 私有 副本 里 的 数据 ， 如 图 11-7 所 示 。 


图 11-7: 连接 流 和 表 的 拓扑 ， 不 需要 外 部 数据 源 


这 样 一 来 ， 当 收 到 点 击 事件 时 ， 可 以 从 本 地 的 缓存 里 查找 user_id， 并 将 其 填充 到 
点 击 事件 里 。 因为 使 用 的 是 本 地 缓存 ， 它 具 有 更 强 的 伸缩 性 ， 而 且 不 会 影响 数据 
库 和 其 他 使 用 数据 库 的 应 用 程序 
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11.3.5” 流 与 流 的 连接 


有 时 候 需 要 连接 两 个 真实 的 事件 流 。 什 么 是 “真实 ?的 流 ? 本 理 开 始 的 时 候 曾 经 说 
过 ， 流 是 无 边界 的 。 如 有 果 使 用 一 个 流 来 表示 一 个 表 ， 那 么 就 可 以 忽略 流 的 大 部 分 

历史 事件 ， 因 为 你 只 关心 表 的 当前 状态 。 不 过 ， 如 宁 要 连接 两 个 流 ， 那 么 就 是 在 
连接 所 有 的 历史 事件 一 一 将 两 个 流 里 具有 相同 键 和 发 生 在 相同 时 间 窗 口内 的 事件 


匹配 起 来 。 这 就 是 为 什么 流 和 流 的 连接 也 叫 作 基于 时 间 窗 口 的 连接 (windowed- 


join) 


假设 有 一 个 由 网 站 用 户 输 入 的 搜索 事件 流 和 一 个 由 用 户 对 搜索 结果 进行 点 击 的 事 
件 流 。 对 用 户 的 搜索 和 用 户 对 搜索 结果 的 点 击 进行 匹配 ， 就 可 以 知道 哪 一 个 搜索 
的 热度 更 高 。 很 显然 ， 我 们 需要 基于 搜索 关键 词 进行 匹配 ， 而 且 每 个 关键 词 只 能 
与 一 定时 间 窗 口内 的 事件 进行 匹配 一 一 假设 用 户 在 输入 搜索 关键 词 后 几 秒 钟 就 会 
点 击 搜索 结果 。 因 此 ， 我 们 为 每 一 个 流 维 护 了 以 几 秒 钟 为 单位 的 时 间 窗 口 ， 并 对 
这 些 时 间 窗 口 事件 结果 进行 匹配 ， 如 图 11-8 所 示 。 
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图 11-8: 连接 两 个 流 ， 通 常 包含 一 个 移动 时 间 窗 


在 Streams 中 ， 上 壕 的 两 个 流 都 是 通过 相同 的 键 来 进行 分 区 的 ， 这 个 键 也 是 用 于 
连接 两 个 流 的 键 。 这 样 一 来 ，user id:42 的 点 击 事件 就 被 保存 在 点 击 主题 的 分 区 5 
上 ， 而 所 有 user_id:42 的 搜索 事件 被 保存 在 搜索 主题 的 分 区 5 上 。Streams 可 以 确 
保 这 两 个 主题 的 分 区 5 的 事件 被 分 配给 同一 个 任务 ， 这 个 任务 就 会 得 到 所 有 与 
user_id:42 相关 的 事件 。Streams 在 内 舱 的 RocksDP § 里 维护 了 两 个 主题 的 连接 时 间 
窗口 ， 所 以 能 够 执行 连接 操作 。 


11.3.6 ” 乱 序 的 事件 


不 管 是 对 于 流 式 处 理 还 是 传统 的 ETL 系统 来 说 ， 处 理 乱 序 事件 都 是 一 个 挑战 。 物 
联网 领域 经 常 发 生 乱 序 事件 : 一 个 移动 设备 断 开 WiFi 连接 几 个 小 时 ， 在 重新 连 
上 WiFi 之 后 将 几 个 小 时 累积 的 事件 一 起 发 送出 去 ， 如 图 11-9 所 示 。 这 在 监控 网 


全 


络 设备 〈 故 障 交 换 机 被 修复 之 前 不 会 发 次 任 何 诊 参 断 数据 ， 或 进行 生产 (装置 间 的 
网 络 连接 非常 不 可 靠 ) 时 也 时 有 发 生 


回回 贺 回回 加 四 回回 加 
ER 


迟到 的 旧事 件 


图 11-9: 乱 序 事件 
要 让 流 处 理应 用 程序 处 理 好 这 些 场景 ， 需 要 做 到 以 下 几 点 。 
。 识别 乱 序 的 事件 。 应 用 程序 需要 检查 事件 的 时 间 ， 并 将 其 与 当前 时 间 进 行 比 


0o 

。 规定 一 个 时 间 段 用 于 重 排 乱 序 的 事件 。 比 如 3 个 小 时 以 内 的 事件 可 以 重 排 ， 

但 3 周 以 外 的 事件 就 可 以 直接 扔 掉 。 

。 具有 在 一 定时 间 段 内 重 排 乱 序 事件 的 能 力 。 这 是 流 式 处 理应 用 与 批 处理 作 业 
的 一 个 主要 不 同 点 。 假 设 有 一 个 每 天 运行 的 作业 ， 一 些 事件 在 作业 结束 之 后 
才 到 达 ， 那 么 可 以 重新 运行 昨天 的 作业 来 更 新 事件 。 而 在 流 式 处 理 中 ,“ 重 
人 ' 这 种 情况 是 不 存在 的 ， 乱 序 事件 和 新 到 达 的 事件 必须 一 

人 

。 具备 更 新 结果 的 能 力 。 如 果 处 理 的 结果 保存 到 数据 库 里 ， 那么 可 以 通过 put 
或 update 对 结果 进行 更 新 。 如 果 流 应 用 程序 通过 邮件 发 送 结果 ， 那么 要 对 结 
果 进 行 更 新 ， 就 需要 很 巧妙 的 手段 。 


有 一 些 流 式 处 理 框架 ， 比 如 Google 的 Dataflow 和 Kafka 的 Streams， 都 支持 独立 
于 处 理 时 间 发 生 的 事件 ， 并 且 能 够 处 理 比 当 前 处 理 时 间 更 晚 或 更 早 的 事件 。 它 们 
在 本 地 状态 里 维护 了 多 个 聚合 时 间 窒 口 ， 用 于 更 新 事件 ， 并 为 开发 者 提供 配置 时 
间 窗 口 大 小 的 能 力 。 ,当然 时 间 窗 口 越 大 ， 维 护 本 地 状态 需要 的 内 存 也 越 大 。 


Streams API 通常 将 聚合 结果 写 到 主题 上 。 这 些 主题 一 般 是 压缩 日 志 主 题 ， 也 就 是 
说 ， 它 们 只 保留 每 个 键 的 最 新 值 。 如 果 一 个 聚合 时 间 窗 口 的 结果 需要 被 更 新 为 晚 
到 事件 的 结果 ， Streams 会 直接 为 这 个 聚合 时 间 窗 口 写 入 一 个 新 的 结果 ， 将 前 一 
个 结果 履 盖 掉 。 


11.3.7 重新 处 理 
最 后 一 个 很 重要 的 模式 是 重新 处 理事 件 ， 该 模式 有 两 个 变种 。 
。 我 们 对 流 式 处 理应 用 进行 了 改进 ， 使 用 新 版 本 应 用 人 处理 同一 个 事件 流 ， 生 成 


新 的 结果 ， 并 比较 两 种 版 本 的 结果 ， 然 后 在 某 个 时 间 点 将 客户 端 切换 到 新 的 
结果 流 上 。 


[ 兹 


。 0 出 现 了 缺陷 ， 修 复 缺 陷 之 后 ， 重 新 处 理事 件 流 并 重新 计 


对 于 第 一 种 情况 ，Kafka 将 事件 流 长 时 间 地 保存 在 可 伸缩 的 数据 存储 里 。 也 就 是 
说 ， 要 使 用 两 个 版 本 的 流 式 处 理应 用 来 生成 结果 ， 只 需要 满足 如 下 条 件 : 


。 将 痢 版 本 的 应 用 作为 一 个 新 的 消费 者 群 组 ; 

。 让 它 从 输入 主题 的 第 一 个 偏 移 量 开始 读 取 数据 〈 这 样 它 就 拥有 了 属于 自己 的 

输入 流 事件 副本 ) ，; 

。 人 在 新 版 本 的 处 理 作业 赶 上 进度 时 ， 将 客户 端 应 用 程序 切换 到 新 
流 


第 二 种 情况 有 一 定 的 挑战 性 。 它 要 求 * 重 置 " 应 用 ， 让 应 用 回 到 输入 流 的 起 始 位 置 
开始 处 理 ， 同 时 重 置 本 地 状态 (了 这样 就 不 会 将 两 个 版 本 应 用 的 处 理 结果 混淆 起 来 
了 ) ， 而 且 还 可 能 需要 清理 之 前 的 输出 流 。 虽 然 Streams 提供 了 一 个 工具 用 于 重 
置 应 用 的 状态 ， 不 过 如 果 有 条 件 运 行 两 个 应 用 程序 并 生成 两 个 结果 流 ， 还 是 建议 
使 用 第 一 种 方案 。 第 一 种 方案 更 加 安全 ， 多 个 版 本 可 以 来 回 切换 ， 
版 本 的 结果 ， 而 且 不 会 造成 数据 的 丢失 ， 也 不 会 在 清理 过 程 中 引入 错误 。 


11.4 Streams 示 例 


为 了 演示 如 何在 实际 中 实现 这 些 模式 ， 下 面 将 给 出 一 些 使 用 Streams API 的 例 

子 。 之 所 以 使 用 这 个 API， 是 因为 它 相 对 简单 ， 而 且 它 是 与 Kafka 一 起 发 布 的 ， 
用 户 可 以 直接 使 用 它 。 不 过 要 记 住 一 点 ， 我 们 可 以 使 用 任意 的 流 式 处 理 框架 和 软 
件 包 来 实现 这 些 模 式 ， 这 些 模式 具有 通用 性 。 


Kafka 有 两 个 基于 流 的 API， 一 个 是 底层 的 Processor API， 一 个 是 高 级 的 Streams 
DSL。 下 面 的 例子 中 将 + 使 用 Streams DSL ° 通过 为 事件 流 定义 转换 链 可 以 实现 流 
式 处 理 。 转 换 可 以 是 简单 的 过 滤器 ， 也 可 以 是 复杂 的 流 与 流 的 连接 。 我 们 可 以 通 
过 底层 的 API 实现 自己 的 转换 ， 不 过 没 必要 这 么 做 


在 使 用 DSL API 时， 一 般 会 先 用 StreamBuilder 创建 一 个 拓扑 (topology) 。 拓 扑 
是 一 个 有 向 图 (DAG) ， 包 含 了 各 个 转换 过 程 ， 将 会 被 应 用 在 流 的 事件 上 。 在 创 
建 好 拓扑 后 ， 使 用 拓扑 创建 一 个 KafkaStreams 执行 对 象 。 多 个 线程 会 随 着 
KafkaStreams 对 和 象 启 动 ， 将 拓扑 应 用 到 流 的 事件 上 。 在 关闭 KafkaSstreams 
对 象 时 ， 处 理 也 随 之 结束 。 


下 面 将 展示 一 些 使 用 Streams 来 实现 上 述 模 式 的 例子 。 字数 统计 这 个 例子 用 于 泪 
示 与 filter 模式 以 及 徐 单 的 聚合 ， 另 一 个 例子 是 计算 股票 交易 市 场 的 各 种 统 
计 人 信息， 用 于 演示 基于 时 间 窗 口 的 聚合 ， 最 后 使 用 填充 点 击 事件 流 en 
Betent 的 例子 来 演示 流 的 连接 。 


11.4.1 ”字数 统计 


先 看 一 个 使 用 了 Streams 的 字数 统计 示例 。 完 整 的 示例 代码 可 以 在 GitHub 
(https://github.com/gwenshap/kafka-streams-wordcount ) 上 找到 。 


要 创建 一 个 流 式 处 理应 用 ， 首 先 需要 配置 Kafka Streams 3| 警 。Kafk aStreams 有 
很 多 配置 参数 ， 这 里 就 不 展开 讨论 了 ， 感 兴趣 的 读者 可 以 在 官方 文档 里 查看 。 男 
外 ， 也 可 以 将 生产 者 和 消费 者 内 柑 到 Kafka Streams 引 警 里 ， 只 要 把 生产 者 或 消费 
者 的 配置 信息 添加 到 Properties 对 象 里 即 可 。 


public class WordCountExample { 


public static void main(String[] args) throws Exceptiont{ 


Properties props = new Properties(); 
props.put(StreamsConfig.APPLICATION_ID_CONFIG, 
"wordcount"); @ 
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, 
"localhost:9092"); @ 
props.put(StreamsConfig.KEY_SERDE_CLASS_CONFIG, 
Serdes.String().getclass().getName()); © 
props.put(StreamsConfig.VALUE_SERDE_CLASS_CONFIG, 
Serdes.String().getclass().getName()); 


@ 每 个 Streams 应 用 程序 必须 要 有 一 个 应 用 ID。 这 个 ID 用 于 协调 应 用 实例 ， 也 
用 于 对 于 同一 个 Kafka 集群 里 的 每 一 个 Streams 
应 用 来 说 ， 名 字 必 须 是 唯一 的 。 


@ Streams 应 用 程序 从 Kafka 主题 上 读 取 数据 ， 并 将 结果 写 到 Kafka 主题 上 ， 所 
以 我 们 要 告诉 应 用 程序 如 何 找到 Kafka。 稍 后 我 们 将 介绍 ，Streams 应 用 程序 也 使 
用 Kafka 作为 协调 工具 


上 日 在 读 写 数据 时 ， 应 用 程序 需要 对 消息 进行 序列 化 和 反 序列 化 ， 因 此 提供 了 默认 
的 序列 化 类 和 反 序 列 化 类 。 如 果 有 必要 ， 可 以 在 稍 后 创建 拓扑 时 履 盖 默认 的 类 。 


做 好 配置 之 后 ， 下 面 开 始 创建 拓扑 。 


KStreamBuilder builder = new KStreamBuilder(); @ 


KStream<String, String> source = 
builder.stream("wordcount-input"); 


final Pattern pattern = Pattern.compile("\\W+"); 


KStream counts = source.flatMapValues(value-> 
Arrays.asList(pattern.split(value.toLowerCase()))) 外 
.map((key, value) -> new KeyValue<0bject， 
Object>(value, value)) 


.filter((key, value) -> (!value.equals("the"))) © 
.groupByKey() @ 
.COoUNt("CountStore").mapValues(value-> 
Long.toString(value)).toStream(); © 
counts.to("wordcount-output"); © 


@ 创建 一 个 KStreamBuilder 对 象 ， 并 定义 了 一 个 流 ， 将 它 指 向 输入 主题 。 


@ 从 主题 上 读 取 的 每 一 个 事件 就 是 一 行文 字 ， 首先 使 用 正则 表达 式 将 它 拆 分 为 一 
系列 单词 ， 然 后 将 每 个 单词 (事件 的 介 作为 事件 的 键 ， 这 样 就 可 以 执行 group 
by 操作 了 。 

@ 将 单词 he 过 滤 掉 ， 过 滤 操 作 看 起 来 很 简单 。 

@ 根据 键 执行 group by 操作 ， 这 样 就 得 到 了 一 个 不 重复 的 单词 集合 。 


© 计算 每 个 集合 里 的 事件 数 。 计 算 的 结果 是 Long 类 型 ， 将 它 转 成 String 类 型 ， 
方便 从 Kafka 上 读 取 结果 。 


@ 最 后 把 结果 写 回 Kafka 。 
定义 好 转换 的 流程 后 ， 应 用 程序 将 会 运行 这 个 流程 ， 接 下 来 要 做 的 就 是 运行 它 。 


KafkaStreams streams = new KafkaStreams(builder, props); @ 


streams.start(); 名 


// 一 般 情况 下 ，Streams 应 用 程序 会 一 直 运 行 下 去 
// 本 例 中 ， 只 让 它 运行 一 段 时 间 ， 然 后 停 掉 它 ， 因 为 数据 是 有 限 的 
Thread.sleep(5000L); 


streams.close(); © 


bi 


于 拓扑 和 配置 属性 定义 一 个 KafkaStreams 对 象 。 


© 
@ 启动 Kafka Streams 引擎 。 
日 过 一 段 时 间 后 将 它 停 掉 。 


就 是 这 么 简单 ! 本 例 只 用 了 几 行 代码 ， 就 演示 了 如 何 实现 单 事件 处 理 模式 (在 事 
件 上 使 用 了 map 与 flter) ， 然 后 通过 group by 操作 对 数据 进行 重新 分 区 ， 并 为 
统计 记录 个 数 维护 了 一 个 简单 的 本 地 状态 。 


建议 运行 完整 的 示例 ，GitHub 库 的 README 文件 包含 了 如 何 运行 示例 的 说 明 。 


也 许 你 会 注意 到 ， 除 了 Kafka 外 ， 不 需要 在 机 器 上 安装 任何 软件 ， 就 可 以 运行 完 
整 的 示例 。 这 类 似 于 在 “本 地 模式 ”下 使 用 Spark。 主 要 的 不 同 之 处 在 于 ， 如 果 主 
题 包 含 了 多 个 分 区 ， 就 可 以 运行 多 个 字数 统计 应 用 实例 〈 在 不 同 的 命令 行 终端 运 
行 ) ， 而 这 也 就 是 第 一 个 Streams 集群 。 几 个 字数 统计 应 用 实例 之 间 互 相交 互 ， 

协调 处 理 任 务 。Spark 的 本 地 模式 非常 简 单 ， 但 要 在 生产 环境 运行 集群 ， 需 要 安 
装 YARN 或 者 Mesos， 并 在 所 有 的 机 器 上 安装 Spark， 然 后 将 你 的 应 用 提交 到 集 
群 上 ， 所 以 Spark 有 较 高 的 准 入 门槛 。 而 如 果 使 用 Streams API， 只 需要 启动 儿 个 
人 


11.4.2 ”股票 市 场 统计 


接 下 来 的 这 个 例子 会 复杂 一 些 ， 下 面 将 从 一 个 股票 交易 事件 流 里 读 取 事 件 ， 这 些 
事件 包含 了 股票 代码 、 洞 盘 价 和 要 价 规模 。 在 股票 交易 里 ， 沾 盘 价 是 指 卖方 的 出 
价 ， 买 入 价 是 指 买 方 建议 文 付 的 价格 ， 要 价 规模 是 指 卖方 愿意 在 相应 价格 基础 上 
出 售 的 股 数 。 为 了 简单 起 见 ， 这 里 直接 名 略 壳 标 过 程 。 数 据 里 不 会 包含 时 间 戳 ， 
相反 ， 我 们 会 使 用 由 Kafka 生产 者 计算 得 出 的 “事件 时 间 ”。 


下 面 将 创建 一 个 包含 了 若干 时 间 窗 口 统计 信息 的 输出 流 : 
。 每 5 秒 钟 内 最 好 的 (最 低 的 ) 沽 盘 价 ; 
。 每 5 秒 钟 内 交易 的 股 数 ; 
。 每 5 秒 钟 内 平均 沽 盘 价 。 

这 些 统计 信息 每 秒 钟 会 更 新 一 次 。 


为 了 简单 起 见 ， 假 设 交 易 所 只 有 10 文 不 同 的 股票 。 应 用 的 参数 设置 与 字数 统计 
示例 很 相似 。 


Properties props = new Properties(); 
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "stockstat"); 


props.put(StreamsConfig,.BOOTSTRAP_SERVERS_CONFIG, 
Constants .BROKER ) ， 
props.put(StreamsConfig.KEY_SERDE_CLASS_ CONFIG, 
Serdes.Sstring().getCclass().getName()); 


props.put(StreamsConfig.VALUE_ SERDE_CLASS CONFIG, 
TradeSerde.class.getName( )); 


主要 的 不 同 在 于 这 次 使 用 的 Serde 类 有 是 不 一 样 的 。 在 字数 统计 应 用 里 ， 键 和 值 
String， 所 以 使 用 了 Serdes,String() 类 作为 序列 化 器 和 反 序 列 化 
。 而 在 这 个 例子 里 ， 键 仍然 是 一 个 字符 串 ， 但 值 是 一 个 Trade 对 象 ， 它 包含 
] 了 股票 代码 、 洛 盘 价 和 要 价 规模 。 为 了 序列 化 和 反 序 列 化 这 个 对 象 (还 包括 应 用 
里 用 到 的 其 他 几 种 对 象 ) ， 使 用 了 Google 的 Gson 类 库 。 借 助 这 个 类 库 ， 可 以 生 
成 JSon 序列 化 器 和 反 序 列 化 器 ， 然 后 创建 一 个 包装 类 ， 用 于 生成 Serde 对 象 。 


static public final class TradeSerde extends WrapperSerde<Trade> { 
public TradeSerde() { 
super (new JsonSerializer<Trade>(), 
new JsonDeserializer<Trade>(Trade.class)); 
} 
} 


这 里 没有 什么 躁 踪 的 ， 只 是 要 记得 为 存储 在 Kafka 里 的 每 一 个 对 象 提供 一 个 
Serde 对 和 象 一 和 输入、 输出 和 中 间 结 果 。 为 了 简化 这 个 过 程 ， 建 议 使 用 GSon、 
Avro、Protobuf 等 框架 来 生成 Serde 。 


在 配置 好 以 后 ， 下 面 开 始 构建 拓扑 。 


KStream<TickerwWindow，TradeStats> stats = Source.groupByKey() @ 
,aggregate(TradeStats: :new, © 
(k, v, tradestats) -> tradestats.add(v), © 
TimeWindows .of(5000).advanceBy(1000), @ 
new Tradestatsserde(), © 
"trade-stats-store") 9 
.toStream((key, value) -> new TickerwWindow(key,key()， 
key.window().start())) © 
.mapValues((trade) -> trade.computeAvgPrice()); © 


stats.to(new TickerwWindowSerde(), new TradeStatsSerde()， 
"stockstatsoutput"); © 


@ 本 例 从 输入 主题 上 读 取 事 件 并 执行 一 个 groupByKey( ) 操作 开始 。 这 个 方法 
虚 有 其 名 ， 实 际 上 并 不 会 执行 任何 分 组 操作 。 不 过 ， 它 会 确保 事件 流 按 照 记录 的 


键 进行 分 区 。 因 为 在 写 数据 时 使 用 了 键 ， 和 groupByKey( ) 方法 之 前 
人 行 修 改 ， 数 据 仍 然 是 按照 它们 的 键 进 行 分 区 的 ， 所 以 说 这 个 方法 不 会 
0 月 5 


@ 在 确保 正确 的 分 区 之 后 ， 开 始 进 行 基于 时 间 窗口 的 聚合 。aggregate 方法 将 
流 拆 分 成 相互 车 加 的 时 间 窗 口 (每 秒 钟 出 现 一 个 5 秒 钟 的 时 间 窗 口 ，， 然 后 在 时 
间 窗 口内 的 所 有 事件 上 应 用 聚合 方法 。 这 个 方法 的 第 一 个 参数 是 一 个 新 的 对 象 ， 


用 于 存放 聚合 的 结果 ， Tradestats 。 我 们 创建 这 个 对 象 ， 并 用 它 存放 
每 个 时 间 窗 口 的 统计 信息 最 低 价 格 、 平 均 价格 和 交易 数量 。 


@ 提供 了 一 个 方法 对 记录 进行 聚合 ，Tradestats 的 add 方法 用 于 更 新 窗口 内 
的 最 低 价 格 、 交 易 数 量 和 总 价 。 


@ 定义 了 5s (5000ms) 的 时 间 窗 口 ， 并 且 每 秒 钟 都 会 向 前 滑动 。 


@ 提供 了 一 个 Serde 对 象 ， 用 于 序列 化 和 反 序 列 化 聚合 结果 (Tradestats 对 
象 ) 。 


@ 在 介绍 模式 时 曾经 说 过 ， 基 于 时 间 窗 口 的 聚合 需要 维护 本 地 状态 。 聚 合 方法 的 
最 后 一 个 参数 就 是 本 地 状态 存储 的 名 字 ， 它 可 以 是 任意 具有 唯一 性 的 名 字 。 


@ 来 合 结果 是 一 个 表 ， 包 含 了 股票 信息 ， 并 使 用 时 间 窗 口 作为 主键 、 
为 值 。 它 表示 一 条 记录 ， 以 及 从 变 1 !' 计 算得 出 的 特定 状态 (参考 “概念 

有 关 流 和 表 二 元 性 的 讨论 ) 。 这 里 想 将 表 重 新 转 成 事件 流 ， 不 过 不 再 使 用 整 个 时 
间 窗 口 作为 键 ， 而 是 使 用 个 包含 了 股票 信 言 息 和 时 间 窗 口 起 始 时 间 的 对 象 。 
toStreanm 方法 将 表 转 成 一 个 流 ， 并 将 键 转 成 TickerwWindow 对 象 。 


© 最 后 一 步 是 更 新 平均 价格 。 现 在 ， 聚 合 结果 里 包含 了 总 价 和 交易 数量 。 明 有 历 所 
有 的 记录 ， 并 使 用 现 有 的 统计 信息 计算 平均 价格 ， 然 后 把 它 写 到 输出 流 里 。 


© 最 后 将 结果 写 到 stockstats-output 流 里 。 


定义 好 流程 之 后 ， 用 它 生 成 KafkaStreams 对 象 ， 并 运行 它 ， 就 像 之 前 的 “字数 统 
计 " 那 个 例子 一 样 。 


这 个 例子 展示 了 如 何在 一 个 流 上 面 进 行 基于 时 间 窗 的 聚合 ， 这 也 许 就 是 最 为 流行 
的 流 式 处 理 使 用 场景 。 大 家 可 以 发 现 ， 为 聚合 维护 一 个 本 地 状态 是 一 件 多 么 简单 
的 事情 ， 只 需要 提供 一 个 Serde 对 象 和 状态 存储 的 名 字 。 不 仅 如 此 ， 这 个 应 用 
还 能 扩展 到 多 个 实例 ， 如 果 有 实例 失效 ， 它 的 分 区 将 会 被 分 配给 其 他 存活 的 实 
例 ， 从 而 实现 自动 的 放 障 恢复 。 在 11.5 节 将 介绍 更 多 有 关 这 种 机 制 的 实现 原理 。 


完整 的 例子 和 运行 说 明 可 以 在 GitHub (https://github.com/gwenshap/kafka-streams- 
stockstats ) 上 找到 。 


11.4.3 ”填充 点 击 事件 流 


最 后 一 个 例子 将 通过 填充 网 站 点 击 事件 流 来 演示 如 何 进行 流 的 连接 。 本 例 首先 生 
成 一 个 模拟 点 击 的 事件 流 ， 一 个 虚拟 用 户 信息 数据 库 表 的 更 新 事件 流 和 一 个 网 站 
搜索 事件 流 ， 然后 将 这 3 个 流连 接 起 来 从 而 得 到 用 户 活动 的 360° 视 图 ， 比 如 用 
户 每 分 钟 的 搜索 内 容 、 点 击 的 内 容 以 及 感 兴趣 的 内 容 。 这 些 连接 操作 为 数据 分 析 
提供 了 让 富 的 数据 集 。 产品 推荐 一 般 就 是 基于 这 些 信息 进行 的 ， 比 如 用 户 搜 索 了 


昌 行 车 ， 点 击 了 “Trek” 的 链接 ， 并 且 爱 好 旅游 ， 那 么 避 ® 可 以 向 用 户 推 荐 Trek 目 行 
车 、 头 番 和 具有 异国 情调 的 自行 车 骑 行 活动 (比如 去 内 布 拉 斯 加 州 。 


应 用 的 配置 与 前 一 个 例子 很 相似 ， 所 以 这 里 跳 过 这 一 步 ， 直 接 进 入 到 构建 连接 流 
要 使 用 到 的 拓扑 。 


KStream<Integer, PageView> views = 
builder.stream(Serdes.Integer(), 

new PageViewSerde(), Constants.PAGE VIEW_ TOPIC); @ 
KStream<Integer, Search> searches = 
builder.stream(Serdes.Integer(),new Searchserde(), 
Constants. SEARCH_TOPIC ) ， 

KTable<Integer, UserProfile> profiles = 
builder.table(Serdes.Integer(), new Pro-fileSerde(), 
Constants.USER PROFILE_TOPIC, "profile-store"); © 


KStream<Integer, UserActivity> viewsWithProfile = views.leftJoin(profiles,®© 
(page, profile) -> new UserActivity(profile.getUserID(), 
profile.getUserName(), profile.getZzipcode(), 
profile.getInterests(), "", page.getPpage())); @ 


KStream<Integer, UserActivity> userActivitykKStream = 
viewsWithProfile.leftJoin(searches, © 
(userActivity, search) -> 
userActivity.updateSearch(search.getSearchTerms()), © 
JoinWindows.of(1000), Serdes.Integer(), 
new UserActivitySerde(), new Searchserde()); ©@ 


@ 首先 为 点 击 事件 和 搜索 事件 创建 流 对 象 。 


@ 为 用 户 信息 定 个 KTable。KTable 是 本 地 缓存 ， 可 以 通过 变更 流 来 对 其 进 
行 更 新 。 


和 将 点 击 事件 流 与 信息 表 连 接 起 来 ， 将 用 户 信息 填充 到 点 击 事件 里 。 在 一 个 流 和 

表 的 连接 操作 里 ， 每 个 事件 都 会 收 到 来 自信 息 表 缓 存 副 本 里 的 信息 。 这 是 一 个 左 

所 以 如 果 有 的 点 击 事件 没有 匹配 的 用 户 信息 ， 这 些 事件 仍然 会 被 保留 
站 Co 


2 一 个 来 目 事件 流 ， 一 个 来 目 表 记录 ， 并 返回 
一 个 值 。 如 果 是 在 数据 库 里 ， 必 须知 道 如 何 将 两 个 值 合并 成 一 个 结果 。 这 里 创建 
了 一 个 activity 对 象 ， 它 包 合 了 几 户 的 详细 信 | 电 和 用 户 浏览 过 的 页 面 。 


© 接 下 来 要 将 点 击 信 息 和 用 户 的 搜索 事件 连接 起 来 。 这 也 是 一 个 左 连接 操作 ， 不 
过 现在 连接 的 是 两 个 流 ， 而 不 是 流 和 表 。 


@ 这 是 连接 方法 ， 这 里 只 是 简单 地 将 搜索 关键 词 添 加 到 匹配 的 页 面 视图 。 


@ 这 是 最 有 意思 的 部 分 ， 流 和 流 之 间 的 连接 是 基于 相同 的 时 间 窗 口 。 是 把 
每 个 用 户 所 有 的 点 击 事件 和 所 有 的 搜索 事件 连接 起 来 ， 并 没有 什么 意义 ， 我 们 要 
把 具有 相关 性 的 搜索 事件 和 点 击 事件 连接 起 来 。 相关 性 的 点 省事 作 该 发 生 
在 搜索 之 后 的 一 小 段 时 间 内 。 所 以 这 里 定义 了 一 个 一 秒 钟 的 连接 时 间 窗口 。 在 搜 
索 之 后 的 一 秒 钟 内 发 生 的 避 击 村 什 才 相信 是 具有 相关 性 的 ， 而 且 搜索 关键 词 也 
会 被 放 进 包 含 了 点 击 信息 和 用 户 信息 的 活动 记录 里 ， 这 样 有 助 于 对 搜索 和 搜索 结 
果 进 行 全 面 的 分 析 。 


定义 了 流程 之 后 ， 用 它 生成 KafkaStreams 对 象 ， 并 运行 它 ， 就 像 之 前 的 “字数 
统计 ”那个 例子 一 样 。 


这 企 人 锅子 演示 We ， 个 是 连接 流 和 表 ， 用 于 将 表 里 的 信 

筷 填 充 到 流 的 事件 里 。 这 个 与 在 数据 仓 里 运行 窒 询 时 加 入 个 维度 的 事实 表 有 
点 相似 °。 第 二 个 是 连接 基于 时 间 窗 口 的 两 个 演 。 这 种 操作 只 会 在 流 式 处 理 中 出 
| o 
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完整 的 例子 和 运行 说 明 可 以 在 GitHub (https://github.com/gwenshap/kafka- 
clickstream-enrich/tree/master ) 上 找到 。 


11.5 Kafka Streams 的 架构 概览 


11.4.3 节 的 例子 演示 了 如 何 使 用 Streams API 实现 流 式 处 理 的 设计 模式 。 为 了 更 好 
地 理解 Streams 的 工作 原理 和 它 的 伸缩 性 ， 下 面 深 入 了 解 API 背后 的 设计 原则 。 


11.5.1 构建 拓扑 


每 个 流 式 应 用 程 ) 序 至 少 会 实现 和 执行 一 个 拓扑 。 * 据 扑 (在 其 他 流 式 处 理 框架 里 叫 
作 DAG, 即 有 向 无 环 图 ) 是 一 个 操作 和 变换 的 集合 ， 每 个 事件 从 输入 到 输出 都 会 
流 经 它 。 在 之 前 的 字数 统计 示例 里 ， 拓 扑 结构 如 11-10 所 示 。 


拆 分 成 单词 寸 滤 掉 “the 


F 

‘ 

| 
1 可 

站 
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: 


按照 键 分 组 


人 重 分 区 主题 


图 11-10: 字数 统计 示例 的 拓扑 结构 


哪怕 是 一 个 很 简单 的 应 用 ， 都 需要 一 个 拓扑 。 拓 扑 是 由 处 理 器 组 成 的 ， 这 些 处 理 
器 是 拓扑 图 里 的 节点 (用 椭圆 表示 ) 。 大 部 分 处 理 器 都 实现 了 一 个 数据 操作 一 一 
过 小、 映 冉 、 聚 合 等 。 数 据 源 处 理 器 从 主题 上 读 取 数据 ， 并 传 给 其 他 组 件 ， 而 数 
据 池 处 理 器 从 上 一 个 处 理 器 接收 数据 ， 并 将 它们 生成 到 主题 上 。 拓 扑 总 是 从 一 个 
或 多 个 数据 源 处 理 器 开始 ， 并 以 一 个 或 多 个 数据 池 处 理 顺 结 


11.5.2 ”对 拓扑 进行 伸缩 


Streams 通过 在 单个 实例 里 运行 多 个 线程 和 在 分 布 式 应 用 实例 间 进 行 负载 均衡 来 
实现 伸缩 。 用 户 可 以 在 一 台 机 器 上 运行 Streams 应 用 ， 并 开启 多 个 线程 ， 也 可 以 
在 多 台 机 器 上 运行 Streams 应 用 。 不 管 采 用 何 种 方式 ， 所 有 的 活动 线程 将 会 均衡 
地 处 理工 作 负载 。 


Streams 引擎 将 拓扑 拆 分 成 多 个 子 任务 来 并 行 执行 。 拆 分 成 多 少 个 任务 取决 于 
Streams 引擎 ， 同 时 也 取决 于 主题 的 分 区 数量 。 每 个 任务 负责 一 些 分 区 : 任务 会 

订阅 这 些 分 区 ， 并 从 分 区 读 取 事件 数据 ， 在 将 结果 写 到 数据 池 之 前 ， 在 每 个 事件 
上 执行 所 有 的 处 理 步骤 。 这 些 任 务 是 Streams 引擎 最 基本 的 并 行 单元 ， 因 为 每 个 
任务 可 以 彼此 独立 地 执行 ， 如 图 11-11 所 示 。 


图 11-11: 运行 相同 拓扑 的 两 个 任务 一 一 每 个 读 取 主题 的 一 个 分 区 


开发 人 员 可 以 选择 每 个 应 用 程序 使 用 的 线程 数 。 如 果 使 用 了 多 个 线程 ， 每 个 线程 
将 会 执行 一 部 分 任务 。 如 果 有 多 个 应 用 实例 运行 在 多 个 服务 器 上 ， 每 个 服务 器 上 
的 每 一 个 线程 都 会 执行 不 同 的 任务 。 这 就 是 流 式 应 用 的 伸缩 方式 ， 主 题 里 有 多 人 少 
分 区 ， 殊 会 有 多 少 任务 。 如 采 想 要 处 理 得 更 快 ， 就 添加 更 多 的 线程 。 如 果 一 台 服 
务 器 的 资源 被 用 光 了 ， 束 在 男 一 人 台 服 务 器 上 启动 应 用 实例 。Kafka 会 自动 地 协调 


工作 ， 它 为 每 个 任务 分 配属 于 它们 的 分 区 ， 每 个 任务 独自 处 理 自己 的 分 区 ， 并 维 
护 与 聚合 相关 的 本 地 状态 ， 如 图 11-12 所 示 。 


图 11-12: 处 理 任务 可 以 运行 在 多 个 线程 和 多 个 服务 器 上 


大 家 或 许 已 经 注意 到 ， 有 时 候 一 个 步骤 需要 处 理 来 目 多 个 分 区 的 结果 ， 这 样 就 会 
在 任务 之 间 形 成 依赖 。 例 如 ， 在 点 击 事件 流 的 例子 里 对 两 个 流 进行 了 连接 ， 在 生 
成 结果 之 前 ， 需 要 从 每 一 个 流 的 分 区 里 获取 数据 。Streams 将 连接 操作 所 涉及 的 
分 区 全 部 分 配给 相同 的 任务 ， 这 样 ， 这 个 任务 就 可 以 从 相关 的 分 区 读 取 数 据 ， 并 
独立 执行 连接 操作 。 这 也 就 是 为 什么 Streams 要 求 同 一 个 连接 操作 所 涉及 的 主题 
必须 要 有 相同 数目 的 分 区 ， 而 且 要 基于 连接 所 使 用 的 键 进行 分 区 。 


如 果 应 用 程序 需要 进行 重新 分 区 ， 也 会 在 任务 之 间 形 成 依赖 。 例 如 ， 在 点 击 事件 
流 的 例子 里 ， 所 有 的 事件 使 用 用 户 ID 作为 键 。 如 果 想 要 基于 页 面 或 者 邮政 编码 
生成 统计 信息 该 怎么 办 ? 此 时 就 需要 使 用 邮政 编码 对 数据 进行 重新 分 区 ， 并 在 新 
分 区 上 运行 聚合 操作 。 如 果 任 务 1 处 理 来 自分 区 1 的 数据 ， 这 些 数据 到 达 男 一 个 
处 理 器 ， 这 个 处 理 器 对 数据 进行 重新 分 区 (groupBy 操作 ) ， 它 需要 对 数据 进行 
shuffle ， 也 束 古 把 数据 发 送 给 其 他 任务 进行 处 理 。 与 其 他 流 式 处 理 框架 不 一 样 的 
是 ，Streams 通过 使 用 新 的 键 和 分 区 将 事件 写 到 新 的 主题 来 实现 重新 分 区 ， 并 启 
动 新 的 任务 从 新 主题 上 读 取 和 处 理事 件 。 重 新 分 区 的 步骤 是 将 拓扑 拆 分 成 两 个 子 
拓扑 ， 每 个 子 拓扑 都 有 自己 的 任务 集 ， 如 图 11-13 所 示 。 第 二 个 任务 集 依赖 第 一 
个 任务 集 ， 因 为 它们 处 理 的 是 第 一 个 子 拓扑 的 结果 。 不 过 ， 它 们 仍然 可 以 独立 地 
并 行 执行 ， 因 为 第 一 个 任务 集 以 自己 的 速率 将 数据 写 到 一 个 主题 上 ， 而 第 二 个 任 
务 集 也 以 目 己 的 速率 从 这 个 主题 读 取 和 处 理事 件 。 两 个 任务 集 之 间 不 需要 通信 ， 


也 没有 共 至 资源 ， 而 且 它 们 也 不 需要 运行 在 相同 的 线程 里 或 相同 的 服务 器 上 。 这 
减少 管道 各 个 部 分 之 间 的 依赖 。 


征 Kafka 提供 的 最 有 用 的 特性 之 一 


图 11-13: 处 理 主题 分 区 事件 的 两 组 任务 


11.5.3 ”从 故障 中 存活 下 来 


Streams 的 伸缩 模型 不 仅 允许 伸缩 应 用 ， 还 能 优雅 地 处 理 故 障 。 首 先 ， 包 括 本 地 
状态 在 内 的 所 有 数据 被 保存 到 有 高 可 用 性 的 Kafka 上 。 如 采 应 用 程序 出 现 故 障 需 
要 重启 ， 可 以 从 Kafka 上 找到 上 一 次 处 理 的 数据 在 流 中 的 位 置 ， 并 从 这 个 位 置 开 
始 继续 处 理 。 如 果 本 地 状态 丢失 《比如 可 能 需要 将 服务 器 替换 掉 ) ， 应 用 程序 可 
以 从 保存 在 Kafka 上 的 变更 日 志 重 新 创建 本 地 状态 。 


Streams 还 利用 了 消费 者 的 协调 机 制 来 实现 任务 的 高 可 用 性 。 如 果 一 个 任务 失 
败 ， 只 要 还 有 其 他 线程 或 者 应 用 程序 实例 可 用 ， 就 可 以 使 用 另 一 个 线程 来 重启 该 
任务 。 这 类 似 于 消费 者 群 组 的 故障 处 理 ， 如 果 一 个 消费 者 失效 ， 就 把 分 区 分 配给 
其 他 活跃 的 消费 者 。 


11.6” 流 式 处 理 使 用 场景 


前 面 已 


些 Streams 的 例子 。 现 在 是 时 候 让 大 家 知道 流 式 处 理 都 有 哪些 常 
了 。 本 章 的 开头 解释 过 ， 如 果 想 快速 处 理事 件 ， 而 不 是 为 每 个 批 次 等 上 几 个 小 


时 ， 但 
派 上 用 场 了 


客户 服务 


又 不 是 真 的 要 求 毫 秒 级 的 响应 ， 那 么 流 式 处 理 (或 者 说 持 纪 
。 话 是 没 错 ， 


经 讲解 了 如 何 进行 流 式 处 理 一 一 从 一 般 性 的 概念 和 模式 说 起 ， 并 列举 了 一 


见 的 使 用 场景 
卖 处 理 ) 就 可 以 


不 过 听 起 来 仍然 十 分 抽象 。 下 面 来 看 一 些 例子 ， 它 们 都 
使 用 流 式 处 理 来 解决 实际 的 问题 。 


假设 你 向 一 个 大 型 的 连锁 酒店 预订 了 一 个 房间 ， i 


据 。 


作业 每 天 只 


认 邮 件 的 系统 


连锁 酒店 的 历史 入 住 数据 ， 


在 预订 了 几 分 钊 
服 的 回复 是 : “我 在 我 们 的 系 
4 运行 一 次 ， 所 以 请 
后 收 到 确认 邮件 。” 这 样 的 服务 有 点 糟糕 ， 
连锁 酒店 遭遇 过 类 似 的 问题 。 
结束 之 后 的 儿 秒 驯 或 者 儿 分 钟 之 内 都 和 EB 发 出 通知 ， 包 括 客服 
' 心 能 够 立即 获知 


、 网 站 等 。 


缠 晶 


h 之 后 ， 仍 然 没 有 收 到 确认 邮件 ， 


5 十 


于 是 打 电 话 向 客服 确认 。 


看 不 到 订单 ， 不 过 从 预订 系统 加 载 数据 的 毗 次 


我 


们 真正 需要 的 是 ， 


有 的 用 
前 


钟 之 内 收 到 邮件 确认 ， 信 用 卡 就 可 以 及 时 扣 球 


上 回答 有 关 预 订房 间 的 问题 了 。 


物 联 网 


物 联 网 包含 很 多 东西 ， 从 用 于 调节 温度 和 


加 三 册 
三 


药 行 业 的 实时 质 ; 


上 ， 而 且 应 用 在 很 多 


[在 用 户 投诉 之 前 识别 出 故障 机 项 全 ) 
标 是 一 样 的 一 一 处 理 大 量 来 
某 些 设备 需要 进行 维护 ， 比 如 交换 机 数据 包 的 


监控 设备 。 流 式 处 理 在 传感器 和 设备 上 应 用 ， 最 为 常见 的 


户 可 能 还 希望 客服 


明天 再 打 电 话 过 来 。 你 应 该 可 以 在 2~3 个 工作 日 之 
不 过 有 人 已 经 不 止 一 次 地 在 一 家 大 型 


连锁 酒店 的 每 一 个 系统 在 预订 


心 、 酒 店 


、 发 送 确 
自己 在 这 家 


台 能 够 知道 他 是 一 个 忠实 的 客户 ， 从 而 提供 更 高 级 
别 的 服务 。 如 果 使 用 流 式 处 理应 用 来 构建 这 些 系统 ， 就 可 以 实现 几 近 实时 的 接收 
和 处 理 这 些 事件 ， 从 而 带 来 更 好 的 用 户 体验 。 es 就 可 以 在 几 分 


然 


后 发 送 票 据 ， 


服务 台 束 可 以 马 


自动 添加 洗衣 剂 的 家 居 设 备 ， 到 制 


人 


征用 


ne 不 过 这 次 是 应 用 在 硬件 
“通信 (识别 故障 基 


、 有 线 电视 


站 ) 


A 


党。 每 种 


地 


下降、 


场景 都 有 


自己 的 特点 ， 


不 过 目 


目 设 备 的 事件 ， 并 识别 出 一 些 模式 ， 


这 些 模式 预示 着 


生产 过 程 


来 拧紧 螺丝 ， 或 者 用 户 频 党 重启 有 线 电视 的 机 项 盒 。 


。 欺诈 检测 。 


欺诈 检 测 也 被 叫 作 异常 检查 ， 
的 < 作 静 者 ”或 不 良 分 子 ， 比 如 信用 卡其 诈 、 股 票 交易 欺诈 


戏 作 浆 或 者 网 络 安全 风险 。 
它们 识别 出 来 越 好 。 ee a 


一 个 还 没有 通过 审核 的 交易 要 比 
es 


在 这 些 欺诈 行为 造成 大 规模 的 破坏 之 前 ， 


需要 更 大 的 力气 


是 一 个 非常 广泛 的 领域 ， 专 注 于 捕 


` 视频 游 


越 早 将 


待 批 次 作业 在 3 天 之 后 才 发 现 它 是 一 个 其 


识别 模式 的 问题 。 


谋 网 络 安全 领域 ， 有 一 个 起 称 为 发 信 标 《beaconing) 的 其 放手 法 ， 黑 客 在 组 
织 内 部 放置 恶意 软件 ， 该 软件 时 不 时 地 连接 到 外 部 网 络 接收 命令 。 一 般 来 
说 ， 网 络 可 以 抵挡 来 自 外 部 的 攻击 ， 但 难以 阻止 内 部 到 外 部 的 突围 。 通 过 处 
理 大 量 的 网 络 连接 事件 流 ， 识 别 出 不 正常 的 通信 和 模式， 检测 出 该 主机 不 经 常 

访问 的 某 些 IP 地 址 ， 在 蒙受 更 大 的 损失 之 前 向 安全 组 织 发 出 告警 。 


11.7 ”如 何 选 择 流 式 处 理 框架 


在 比较 两 个 流 式 处理 系 统 时 ， 要 着 重 考虑 使 用 场景 是 什么 。 以 下 是 一 些 需要 考虑 
的 应 用 类 别 。 


摄取 


摄取 的 目的 是 将 数据 从 一 个 系统 移动 到 男 一 个 系统 ， 并 在 传输 过 程 中 对 数据 
进行 一 些 修改 ， 使 其 更 适用 于 目标 系统 。 


低 延 迟 
任何 要 求 立即 得 到 响应 的 应 用 。 有 些 欺诈 检 测 场景 束 属 于 这 一 类 。 
异步 微服 务 


这 些微 服务 为 大 型 的 业务 流程 执行 一 些 简单 操作 ， 比 如 更 新 仓储 信息 。 这 些 
应 用 需要 通过 维护 本 地 状态 缓存 来 提升 性 能 


几 近 实时 的 数据 分 析 


这 些 流 式 媒 体 应 用 程序 执行 复杂 的 聚合 和 连接 ， 以 便 对 数据 进行 切 分 ， 并 生 
成 有 趣 的 业务 见解 。 


选择 何 种 流 式 处 理 系 统 取 决 于 要 解决 什么 问题 。 


。 如 果 要 解决 摄取 问题 ， 那 么 需要 考虑 一 下 是 需要 一 个 流 式 处 理 系统 还 是 一 个 
更 简单 的 专注 于 摄取 的 系统 ， 比 如 Kafka Connect。 如 果 确 定 需要 一 个 流 式 处 
理 系统 ， 那 就 要 确保 它 拥 有 可 用 的 连接 器 ， 并 且 要 保证 目标 系统 也 有 高 质量 
的 连接 器 可 用 。 
如 果 要 解决 的 问题 要 求 毫 秒 级 的 延迟 ， 那 么 就 要 考 虎 一 下 是 否 一 定 要 用 流 。 
一 般 来 说 ， 请 求 与 啊 应 模式 更 加 适用 于 这 种 任务 。 如 果 确 定 需 要 一 个 流 式 处 
理 系 统 ， 那 就 需要 选择 一 个 支持 低 延 迟 的 模型 ， 而 不 是 基于 微 批 次 的 模型 。 

。 如 果 要 构建 异步 微服 务 ， 那么 需要 一 个 可 以 很 好 地 与 消息 总 线 (希望 十 
Kafka) 集成 的 流 式 处 理 系 统 。 它 应 该 具备 变更 捕 提 能力， 这 样 就 可 以 将 上 
游 的 变更 传递 到 微服 务 本 地 的 缓存 里 ， 而 且 它 要 支持 本 地 存储 ， 可 以 作为 微 
服务 数据 的 缓存 和 物化 视图 。 


。 如 有 果 要 构建 复杂 的 数据 分 析 引 擎 ， 那 么 也 需要 一 个 文 持 本 地 存储 的 流 式 处 理 
系统 ， 不 过 这 次 不 是 为 了 本 地 缓存 和 物化 视图 ， 而 是 为 了 支持 高 级 的 聚合 、 
时 间 窗 口 和 连接 ， a 束 很 难 实现 这 些 特性 。API 需要 
文 持 自 定义 聚合 、 基 于 时 间 窗 口 的 操作 和 多 类 型 连接 。 


除了 使 用 场景 外 ， 还 有 如 下 一 些 全 局 的 考虑 点 。 
系统 的 可 操作 性 


它 是 否 容易 部 署 ? 是否 容 易 监 控 和 调试 ? 是 否 易于 伸缩 ? 它 是 否 能 够 很 好 地 
> 的 基础 设施 集成 起 来 ? 如 果 出 现 错误 ， 需 要 重新 处 理 数据 ， 这 个 时 候 该 怎 
么 办 ? 


API 的 可 用 性 和 调试 的 简单 性 


为 了 开发 出 高 质量 的 应 用 ， 同 一 种 框架 的 不 同 版 本 可 能 需要 耗费 不 同 的 时 
人 开发 时 间 和 上 市 时 机 太 重 要 了 ， 所 以 我 们 需要 选择 一 个 高 
久 \ 统 


让 复杂 的 事情 简单 化 


几乎 每 一 个 系统 都 声称 它们 支持 基于 时 间 窗 口 的 高 级 聚合 操作 和 本 地 缓存 ， 
但 问题 是 ， 它 们 够 简单 吗 ? 它们 是 处 理 了 规模 伸缩 和 故障 恢复 方面 的 细节 问题 ， 
还 是 只 提供 了 脆弱 的 抽象 ， 然 后 让 你 来 处 理 剩 下 的 事情 ? 系统 提供 的 API 越 简 
洁 ， 封 装 的 细节 越 多 ， 开 发 人 员 的 效率 就 越 高 。 


社区 


大 部 分 流 式 处 理 框架 都 是 开源 的 。 对 于 开源 软件 来 说 ， 一 个 充满 生气 的 社区 
是 不 可 蔡 代 的 。 好 的 社区 意味 着 用 户 可 以 定期 获得 新 的 功能 特性 ， 而 且 质 量 相对 
较 高 (没有 人 会 使 用 糟糕 的 软件 ) ， 缺 陷 可 以 很 快 地 得 到 修复 ， 而 且 用 户 的 问题 
可 以 及 时 得 到 解答 。 这 也 意味 着 ， 如 果 遇 到 一 个 奇怪 的 问题 并 在 Google 上 搜 
SE 号 ， 因 为 其 他 人 也 在 使 用 这 个 系统 ， 而 且 也 遇 到 了 相同 

问题 。 


11.8 ”总 结 


本 章 的 开头 解释 了 流 式 处 理 ， 给 出 了 流 式 处 理 范式 的 规范 定义 ， 介 绍 了 它 的 一 些 
常见 属性 ， 并 将 它 与 其 他 编程 范式 进行 了 比较 。 


然后 列举 了 3 个 基于 Kafka Streams 开发 的 应 用 程序 ， 以 此 来 解释 一 些 非常 重要 的 
流 式 处 理 概念 。 


在 详 述 了 这 些 示 例 之 后 ， 我 们 给 出 了 Kafka 的 架构 概览 ， 并 解释 了 它 的 内 
部 原 理 。 最 后 提供 了 一 些 流 式 处 理 的 使 用 场景 ， 给 出 了 一 些 用 于 比较 流 式 处 理 框 
架 的 建议 ， 并 以 此 结束 本 书 。 


附录 A 在 其 他 操作 系统 上 安装 Kafka 


Kafka 基本 上 就 是 一 个 Java 应 用 程序 ， 所 以 它 可 以 运行 在 任何 一 个 可 以 安装 JRE 
的 系统 上 。 不 过 ， 它 针对 Linux 系统 进行 了 优化 ， 因 此 可 以 获得 最 好 的 性 能 。 如 
果 让 它 运行 在 其 他 系统 上 ， 有 可 能 会 出 现 与 特定 操作 系统 相关 的 问题 。 所 以 ， 在 
桌面 操作 系统 上 进行 Kafka 开发 或 测试 时 ， 最 好 能 够 让 它 运行 在 虚拟 机 里 ， 这 个 
虚拟 机 最 好 能 与 生产 环境 的 配置 相 匹配 。 


A.1 在 windows 上 安装 Kafka 


截止 到 Windows 10， 可 以 通过 两 种 方式 来 运行 Kafka。 传 统 的 方式 是 使 用 本 地 的 
Java 安装 包 。Windows 10 用 户 还 可 以 使 用 Windows 的 Linux 子 系统 。 推 荐 使 用 
因为 它 提 供 了 与 生产 环境 最 为 相似 的 配置 ， 所 以 这 里 就 从 这 种 方式 


A.1.1 使 用 windows 的 Linux 子 系统 


如 果 使 用 的 是 windows 10， 就 可 以 通过 Windows 的 Linux 子 系统 (WSL) 来 安 
装 原生 的 Ubuntu 支持 。 在 本 书 英文 版 出 版 时 ， 微 软 仍然 只 是 把 它 当 成 一 个 实验 
0 -0 但 不 像 虚拟 机 那样 需要 那么 多 资源 ， 却 提供 了 更 


可 以 按照 微软 开发 者 网 络 Bash on Ubuntu on Windows 
(https://msdn.microsoft.com/en-us/commandline/wsl/about ) 页 面 所 提供 的 说 明 来 
安装 WSL。 安 装 完 WSL 后 ， 需 要 通过 apt -get 来 安 狼 JDK。 


$ sudo apt-get install openjdk-7-jre-headless 
[sudo] password for username: 

Reading package lists... Done 

Building dependency tree 

Reading state information... Done 

| 


done. 


安装 完 JDK 后 ， 再 根据 第 2 章 的 说 明 来 安装 Kafka 。 
A.1.2 使 用 本 地 Java 


如 果 你 使 用 的 是 旧版 本 的 Windows， 或 者 不 想 使 用 WSL 环境 ， 那 么 可 以 使 用 
Windows 的 Java 环境 来 运行 Kafka。 不 过 要 注意 的 是 ， 这 可 能 会 引入 Windows 环 
境 所 特有 的 问题 。Kafka 开发 社区 可 能 不 会 注意 到 这 些 问 题 ， 因 为 Kafka 的 开发 
者 很 少 会 在 Windows 上 运行 Kafka。 


在 安装 Zookeeper 和 Kafka 之 前 ， 必 须 有 一 个 Java 环境 。 建 议 安装 最 新 版 本 的 
Oracle Java 8， 可 以 在 Oracle Java SE 下 载 页 面 找 到 最 新 版 的 JDK。 下 载 完整 版 的 
JDK， 这 样 就 可 以 拥有 所 有 的 Java 工具 ， 然 后 按照 指示 一 步 一 步 安装 JDK 即 

可 。 


全 、 注意 安装 路 径 


在 安装 Java 和 Kafka 时， 建议 把 它们 安装 在 不 包含 空格 的 目录 里 。 Windows 
允许 路 径 里 包含 空格 ， 但 基于 UNIX 环境 设计 的 应 用 程序 不 支持 包含 空格 的 
路 径 ， 而 且 要 指定 不 同 的 路 径 也 很 困难 。 在 安装 Java 时 要 谨 记 这 一 点 。 例 
如 ， 如 果 安 装 JDK 1.8 update 121， 可 以 把 它 安装 在 C:\Java\ jdk1.8.0_121 路 


径 中 。 


在 安装 完 Java 后 ， 要 设置 环境 变量 。 环 境 变量 可 以 在 Windows 的 控制 面板 里 设 

根据 操作 系统 版 本 的 不 同 ， 它 的 位 置 可 能 不 一 样 。 在 Windows 10 中 ， 先 选 

择 “ 系 统 和 安全 ”， 再 选择 "系统 "， 然 后 单 击 < 计 算 机 名 、 域 和 工作 组 设置 "里 的 “更 
改 设置 ?按钮 ， 这 样 就 可 以 打开 一 个 “系统 属性 ”窗口 ， 选择 “高 级 ”选项 卡 ， 然后 单 
击 “ 环 境 变 量 ” 按 钮 。 这 里 添加 一 个 名 为 JAVA_HOME 的 用 户 变量 (图 A-1) ， 并 
把 它 的 值 设 为 Java 的 安装 目录 ， 然 后 修改 Path 系统 变量 ， 入 里 面 注 加 一 个 办 条 

日 %JAVA_HOMEo%\bin 。 保 存 配置 ， 退 出 控制 面板 。 


接 下 来 可 以 安装 Kafka 了 。 安 装 包 里 已 经 包含 了 Zookeeper， 所 以 不 需要 再 单独 
安装 Zookeeper。 当 前 版 本 的 Kafka 可 以 从 http://kafka.apache.org/downloads.html 
上 和 下载。 在 本 书 英文 版 出 版 时 ，Kafka 的 版 本 是 0.10.1.0， 相 应 的 Scala 版 本 是 
2.11.0。 下 载 的 文件 经 过 GZip 压缩 ， 并 通过 tar 、 所 以 需要 Windows 的 加 
压缩 工具 (如 8Zip) Te 与 在 Linux 系统 上 安装 Kafka 类 似 ， 必 须 为 Kafka 
选择 一 个 解压 目录 。 这 里 假设 Kafka 被 解压 到 C: datea 2.11-0.10.1.0。 


头 因 让 


Computer Name Hardware Advanced System Protection Remote 


You must be logged on as an Admini 
Performance 
Visual effects, processor schedulin¢ 


We User variables for live 


Variable Value 
User Profiles ChocolateyLastPathUpdate Mon Apr 17 10:51:22 2017 
ChocolateyToolsLocation C\tools 
OneDrive C\Users\live\OneDrive 
Path %USERPROFILE%\AppData\Local\Microsoft\WindowsApps; 
TEMP %USERPROFILE%\AppData\Local\Temp 
Startup and Recovery TMP %USERPROFILE%\AppData\Local\Temp 


Desktop settings related to your sig 


System startup, system failure, pnd 


Variable name: JAVA_HOME 


Variable value: C:VavaNjdk1.8.0 121 


Browse Directory.-. Browse File... Cancel 


NUMBER OF PROCESSORS 4 

Os Windows_NT 

Path C\Windows\system32;C:\Windows;C\Windows\System32\Wbe... 
PATHEXT COM;.EXE;.BAT;.CMD;.VBS;.VBE;.JS;JSE;.WSF;. WSH;.MSC 
PROCESSOR ARCHITECTURE AMD64 

PROCESSOR _IDENTIFIER Intel64 Family 6 Model 78 Stepping 3, Genuinelntel 


New... Edit.. 


Cancel 


图 A-1: 添加 JAVA_HOME 变量 


在 Windows 下 运行 Zookeeper 和 Kafka 有 一 点 不 一 样 ， 因 为 必须 使 用 Windows 特 
有 的 批 处 理 文件 而 个 是 shell 脚本 。 批 处 理 文件 不 文 持 在 后 端 运行 应 用 程序 ， 所 以 
每 一 个 应 用 程序 都 需要 一 个 单独 的 shell。 先 启动 Zookeeper: 


PS C:\> cd kafka 2.11-0.10.2.0 

PS C:\kafka_ 2.11-0.10.2.0> bin/windows/zookeeper-server-start.bat C: 
\kafka_2.11-0.10.2.0\config\zookeeper .properties 

[2017-04-26 16:41:51,529] INFO Reading configuration from: C: 
\kafka_2.11-0.10.2.0\config\zookeeper .properties (org.apache.zoo 

keeper .server .quorum.QuorumPpeerConfig) 

[...] 

[2017-04-26 16:41:51,595] INFO minSessionTimeout set to -1 (org.apache.zoo 
keeper .server .ZooKeeperServer ) 

[2017-04-26 16:41:51,596] INFO maxSessionTimeout set to -1 (org.apache.zoo 
keeper .server .ZooKeeperServer ) 

[2017-04-26 16:41:51,673] INFO binding to port 0.0.0.0/0.0.0.0:2181 
(org.apache.zookeeper .Server ,NIOServerCnxnFactory ) 


在 Zookeeper 开始 运行 之 后 ， 打 开 男 一 个 窗口 来 启动 Kafka: 


PS C:\> cd kafka 2.11-0.10.2.0 

PS C:\kafka_2.11-0.10.2.0> .\bin\windows\kafka-server-start.bat C: 
\kafka_2.11-0.10.2.0\config\server.properties 

[2017-04-26 16:45:19,804] INFO KafkaConfig values: 


:| 
[2017-04-26 16:45:20,697] INFO Kafka version : 0.10.2.0 (org.apache.kafka.com 
mon,utils,AppInfoParser ) 
[2017-04-26 16:45:20,706] INFO Kafka commitId : 576d93a8dcocf421 
(org.apache.kafka.common.utils.AppInfoparser) 
[2017-04-26 16:45:20,717] INFO [Kafka Server 0], started (kafka.server.Kafka 
Server) 


A.2 在 MacOS 上 安装 Kafka 


苹果 的 MacO5S 运行 在 Darwin 上， 一 个 基于 FreeBSD 的 UNIX 操作 系统 。 世 就 是 
i 在 MacOS 上 运行 应 用 程序 与 在 UNIX 系统 上 是 差不多 的 ， 所 以 在 MacOS 上 

装 为 UNIX 而 设计 的 应 用 程序 (如 Kafka) 不 会 有 太 大 难度 。 可 以 通过 包 管 理 
I 来 安装 Java 和 Kafka， 也 可 以 手动 安装 它们 ， 这 样 可 以 自由 
选择 ° 


A.2.1 使 用 Homebrew 


如 采 已 经 在 MacOS 上 安装 了 Homebrew (https: //brew.sh ) ， 就 可 以 用 它 来 安装 
Kafka。 这样 可 以 确保 先 安 装 Java， 然 后 再 安装 Kafka 0.10.2.0 〈 在 本 书 英 文 版 出 
版 时 ) 。 


如 果 还 没有 安装 Homebrew， 请 先 按 照 Homebrew 安装 页 面 
(https://docs.brew.sh/Installation.html ) 上 提供 的 步骤 安装 Homebrew， 然 后 用 它 
来 安装 Kafka。Homebrew 会 确保 先 安 装 所 有 的 依赖 项 ， 包 括 Java 。 


$ brew install kafka 

==> Installing kafka dependency: zookeeper 

[Las] 

==> Summary 

/usr/local/Cellar/kafka/90.10.2.0: 132 files, 37.2MB 
$ 


Homebrew 会 将 Kafka 安装 到 /usr/local/Cellar 目录 ， 不 过 文件 会 被 链接 到 其 他 目 
录 o 


。 二 进 制 文件 和 脚本 文件 在 /usr/local/bin 目录 下 。 

。 Kafka 配置 文件 在 /usr/local/etc/kafka 目录 下 。 

。 Zookeeper 配置 文件 在 /usr/local/etc/zookeeper 目录 下 。 

。 log.dirs (Kafka 的 数据 目录 ) 被 设置 为 /usr/local/var/lib/kafka-logs 。 


安装 完毕 后 ， 就 可 以 启动 Zookeeper 和 Kafka (把 Kafka 运行 在 前 台 ) 了 : 


$ /usr/local/bin/zkServer start 

JMX enabled by default 

Using config: /usr/local/etc/zookeeper/zoo.cfg 

Starting zookeeper ... STARTED 

$ kafka-server-start.sh /usr/local/etc/kafka/server.properties 


[2017-02-09 20:48:22,485] INFO [Kafka Server 0], started (kafka.server.Kafka 
Server) 


A.2.2 ”手动 安装 


在 MacOS 上 手动 安装 Kafka 与 在 Windows 上 类 似 ， 需 要 先 安装 JDK。 可 以 从 
Oracle Java SE 下 载 页 面 上 找到 MacO5S 的 JDK 版 本 ， 然 后 下 载 Kafka。 这 里 假设 
下 载 的 Kafka 被 解压 到 /usr/local/kafka_2.11-0.10.2.0 目录 。 


在 MacOS 上 启动 2 和 Kafka 与 在 Linux 上 类 似 ， 只 不 过 要 确保 设置 了 正 
确 的 JAVA_HOME 变量 ; 


$ export JAVA_HOME= /usr/Libexec/java_home 

$ echo $JAVA_HOME 
/Library/Java/JavaVirtualMachines/jdk1.8.0._131.jdk/Contents/Home 

$ /usr/local/kafka_2.11-0.10.2.0/bin/zookeeper-server-start.sh -daemon /usr/ 
local/kafka_2.11-0.10.2.0/config/zookeeper .properties 

$ /usr/local/kafka_2.11-0.10.2.0/bin/kafka-server-start.sh 
/usr/local/etc/kafka/ 

server .properties 

[2017-04-26 16:45:19,804] INFO KafkaConfig values: 


[...] 

[2017-04-26 16:45:20,697] INFO Kafka version : 0.10.2.0 (org.apache.kafka.com 
mon,utils.AppInfoParser ) 

[2017-04-26 16:45:20,706] INFO Kafka commitId : 576d93a8dcocf421 
(org.apache.kafka.common.utils.AppInfoParser) 

[2017-04-26 16:45:20,717] INFO [Kafka Server 0], started (kafka.server.Kafka 
Server) 


作者 介绍 


Neha Narkhede ，Confluent (Kafka 背后 的 公司 ) ee "在 
创立 Confluent 之 前 ，Neha 在 LinkedIn 领导 流 式 基础 设施 团队 ， 基 于 Kafka 和 
Apache Samza 检 构建 PB 级 别 的 流 式 基础 设施 。Neha 擅长 构建 大 型 可 伸缩 的 分 布 式 
系统 ， 是 Kafka 的 最 初 作者 之 一 。 她 曾经 在 Oracle 从 事 数 据 库 搜 索 方 面 的 工作 ， 
拥有 佐治 亚 理工 大 学 计算 机 科学 硕士 学 位 。 


Gwen Shapira ，Confluent 产品 经 理 ， 同 时 也 是 Kafka 项 目的 PMC (Apache 项 目 
管理 委员 会 ) 成 员 。 她 实现 了 Kafka 与 Apache Flume 的 集成 ， 同 时 也 是 Apache 
Sqoop 的 页 献 者 之 一 。Gwen 拥有 15 年 与 客户 共同 设计 可 伸缩 数据 架构 的 经 验 。 
她 曾经 是 Cloudera 的 一 名 软件 工程 师 、 ~ Pythian 的 高 级 顾问 、Oracle ACE 总 监 ， 
以 及 NoCOUG 的 董事 会 成 员 。Gwen 经 常 在 各 种 行业 大 会 上 演讲 ， 为 多 个 行业 博 
客 撰 写 文 章 ， 包 括 O'Reilly Radar 。 


Todd Palino ，LinkedIn 的 高 级 网 站 可 靠 性 工程 师 ， 负 责 部 署 和 维护 大 型 的 
Kafka 、Zookeeper 和 Samza 平台 。 他 人 负责 架构 、 日 常 运 维和 工具 部 署 ， 包 括 创建 
高 级 的 监控 和 通知 系统 。Todd 是 开源 项 目 Burrow (一 个 Kafka 消费 者 监控 工 

具 ) 的 开发 痢 ， 经 常 在 行业 大 会 和 技术 讲座 上 分 享 Kafka 相关 的 经 验 。Todd 有 超 
过 20 年 的 基础 设施 服务 相关 经 验 ， 在 加 入 LinkedIn 之 前 ， 他 是 Verisign 的 一 名 
系统 工程 师 ， 负 责 实 施 服务 管理 自动 化 ， 包 括 DNS、 网 络 和 硬件 的 管理 ， 并 在 公 
司 范 围 内 管理 硬件 和 软件 标准 。 


封面 介绍 


本 书 封面 上 的 动物 是 一 只 蓝 荡 笑 滁 乌 。 笑 到 乌 属 于 旭 乌 科 ， 生 活 在 新 几内亚 南部 
和 澳大利亚 北部 。 


雄性 笑 避 乌 拥有 五 颜 六 色 的 羽毛 ， 翅膀 和 局 郭 的 羽毛 息 星 他 的 ， 肉 性 筑 以 鸟 的 屁 
部 则 是 红 棕色 ， 带 有 黑色 的 条 纹 。 雄 性 和 雌性 笑 萌 乌 都 有 奶油 色 的 腹部 ， Re 
色 的 条 纹 ， 它 们 的 虹膜 是 白色 的 。 成 年 笑 淼 鸟 的 体型 要 比 其 他 于 鸟 小 一 些 ， 平 均 
身长 38 到 43 厘米 ， 体 重 在 260 克 到 330 克之 间 。 


监 这 突 玖 乌 偏爱 肉食 ， 捕 食 对 象 随 季 节 稍 有 不 同 。 人 它们 捕捉 蜥 蝎 、 昆 虫 
和 青蛙 为 食 ， 而 在 干燥 的 季节 ， 它 们 则 多 以 小 龙虾 、 
1 在 以 乌 类 为 食 的 食物 链 里 ， 攻 信和 并 福 色 的 天天 记 容 次 以 站 
到 沪 胃 民 


9 月 到 12 月 是 监 翅 笑 骏 乌 的 蒙 殖 季节 ， 它 们 把 喝 穴 筑 在 树 的 上 方 ， 通 过 社区 协作 
的 方 起 于 育 下 一 人 对 突 举 乌 盏 少 会 得 到 胃 外 只 实 司 乌 的 帮助 。 它 们 一 般 会 
花 大 概 26 天 的 时 间 来 及 蛋 ， 每 次 镶 3 到 4 只 蛋 。 锥 乌 如 果 能 够 正常 破 充 而 出 ， 


那么 大 概 36 天 后 就 会 长 出 羽毛 。 早 出 生 的 雏 乌 会 在 第 一 周 内 尝试 杀 死 更 小 的 雏 
成 年 笑 列 乌 会 伦 上 6 到 8 周 的 时 间 来 训练 那些 存活 下 来 的 小 乌 怎 样 捕食 。 


O'Reilly 封面 上 的 很 多 动物 都 是 濒危 物种 ， 它 们 对 整个 世界 都 很 重要 。 如 果 你 想 
为 保护 动物 做 些 页 献 ， 可 以 访问 animals.oreilly.com 。 


封面 图 片 来 自 English Cyclopedia 。 


看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 译 
者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 


ebook@turingbook.com ° 
在 这 里 可 以 找到 我 们 : 


。 微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 

。 微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

。 微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

。 微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
。 微 信 图 灵 教 育 : turingbooks 


图 灵 社 区 会 员 David_Wang_ (524259885@qq.com) 专 享 尊重 版 权 


